dr Robert Kowalczyk, PWSZ Płock

Slides:



Advertisements
Podobne prezentacje
Metody numeryczne część 1. Rozwiązywanie układów równań liniowych.
Advertisements

Wybrane zastosowania programowania liniowego
Badania operacyjne. Wykład 1
Materiały pochodzą z Platformy Edukacyjnej Portalu
Hurtownie Danych Mariusz Dołęga.
Jednostki pamięci komputera
Wykład 7 Wojciech Pieprzyca
Wykład 6 Wojciech Pieprzyca
Wstęp do programowania obiektowego
Wstęp do interpretacji algorytmów
Zapis informacji Dr Anna Kwiatkowska.
ALGORYTMY Opracowała: ELŻBIETA SARKOWICZ
Temat 3: Co to znaczy, że komputer ma pamięć? Czy można ją zmierzyć?
dr inż. Piotr Muryjas Wyższa Szkoła Przedsiębiorczości i Administracji
Bezpieczeństwo danych
POJĘCIE ALGORYTMU Pojęcie algorytmu Etapy rozwiązywania zadań
Algorytmy.
Materiały pochodzą z Platformy Edukacyjnej Portalu Wszelkie treści i zasoby edukacyjne publikowane na łamach Portalu
Technologia informacyjna
Co to jest TIK?.
Przeobrażenia społeczne następujące pod wpływem mediów
Autor: Justyna Radomska
TECHNOLOGIA INFORMACYJNA
Jednostki w informatyce i system binarny (dwójkowy)
InTouch.
Algorytmy.
Network Literacy Katarzyna Chomicz.
Jednostki używane w informatyce
Wybrane zagadnienia relacyjnych baz danych
Bazy danych Microsoft access 2007.
Na wysokościach myślenia jest sfera,
MS Excel - wspomaganie decyzji
W W W Łukasz Stochniał.
Algorytmika.
Treści multimedialne - kodowanie, przetwarzanie, prezentacja Odtwarzanie treści multimedialnych Andrzej Majkowski informatyka +
Archiwizacja bazy danych
KARTY DŹWIĘKOWE.
Wyszukiwanie maksimum funkcji za pomocą mrówki Pachycondyla Apicalis.
System Zarządzania Bazą Danych
Danuta Stanek KODOWANIE LICZB Systemy liczenia III.
Treści multimedialne - kodowanie, przetwarzanie, prezentacja Odtwarzanie treści multimedialnych Andrzej Majkowski informatyka +
Ciekawostki objętość Ziemi – 1,1*1012 km3 masa Księżyca – 7,35*1022kg
Biblioteki cyfrowe i repozytoria
Rodzaje pamięci komputerowej
Bazy danych Podstawy relacyjnych baz danych Autor: Damian Urbańczyk.
Projektowanie postaci formularza:
Metody komunikacji dawniej i dziś
Metody komunikacji dawniej i dziś
Wstęp do interpretacji algorytmów
Komunikacja teraz i kiedyś
Materiały pochodzą z Platformy Edukacyjnej Portalu Wszelkie treści i zasoby edukacyjne publikowane na łamach Portalu
Zespół środków, czyli urządzeń (np. komputer, sieci komputerowe czy media), narzędzi (oprogramowanie) oraz innych technologii, które służą wszechstronnemu.
BAZY DANYCH Microsoft Access Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej Katedra Automatyki i.
Dlaczego warto uczyć się języka niemieckiego?. Znajomość języków. Świat, który nas otacza ciągle się zmienia i stawia coraz wyższe wymagania. Teraz nie.
Informatyka– dziedzina nauki i techniki zajmująca się przetwarzaniem informacji – w tym technologiami przetwarzania informacji oraz technologiami wytwarzania.
Algorytmy, sposoby ich zapisu.1 Algorytm to uporządkowany opis postępowania przy rozwiązywaniu problemu z uwzględnieniem opisu danych oraz opisu kolejnych.
Programowanie strukturalne i obiektowe Klasa I. Podstawowe pojęcia dotyczące programowania 1. Problem 2. Algorytm 3. Komputer 4. Program komputerowy 5.
Jednostki pamięci komputera
Innowacja z programowania realizowana w klasach 1-3
WYZWANIA WOBEC STATYSTYKI JAKO NAUKI
Podstawy Informatyki.
Hipertekst HTML WWW.
Wstęp do Informatyki - Wykład 6
Efektywność algorytmów
{ Wsparcie informacyjne dla zarządzania strategicznego Tereshkun Volodymyr.
Treści multimedialne - kodowanie, przetwarzanie, prezentacja Odtwarzanie treści multimedialnych Andrzej Majkowski informatyka +
KOMPETENCJE KLUCZOWE.
Selekcja danych Korelacja.
POJĘCIE ALGORYTMU Wstęp do informatyki Pojęcie algorytmu
Zapis prezentacji:

dr Robert Kowalczyk, PWSZ Płock Drążenie danych dr Robert Kowalczyk, PWSZ Płock

dr Robert Kowalczyk, PWSZ Płock Co to są dane? Dane (z ang. data, łac. datum) – zbiory liczb i tekstów o różnych formach. Według Gadomskiego metateorii TOGA dane są zdefiniowane jako wszystko co jest/może być przetwarzane umysłowo lub komputerowo. W tym sensie dane są pojęciem relatywnym, istnieją tylko razem z pojęciem przetwarzania danych i mogą przyjmować takie postaci jak: znaki, mowa, wykresy i sygnały. Dane używane są przez komputery do obliczeń. Mogą też być prezentowane bądź przetwarzane. Dane mogą być przedstawiane i przechowywane w postaci zbiorów danych – komputerowo baz danych. dr Robert Kowalczyk, PWSZ Płock

Jednostki informacji – jak mierzymy dane? Bajt (dop. bajtu lub bajta) – najmniejsza adresowalna jednostka informacji pamięci komputerowej, składająca się z bitów (często 8). Bit (z ang. kawałek, także skrót od binary digit, czyli cyfra dwójkowa) – najmniejsza ilość informacji potrzebna do określenia, który z dwóch równie prawdopodobnych stanów przyjął układ. dr Robert Kowalczyk, PWSZ Płock

Kilka faktów z grabstats.com 2.7 ZetaBajtów danych istnieje w dzisiejszym świecie cyfrowej informacji. 235 TeraBajtów danych zostało zgromadzonych przez Bibliotekę Kongresu Stanów Zjednoczonych w 2011 roku. Administracja prezydenta Obamy zainwestowała 200 milionów dolarów w projekty dotyczące BIG DATA Międzynarodowa Korporacja Danych (IDC) szacuje, że do 2020, transakcje biznesowe osiągną 450 miliardów dziennie. Facebook gromadzi i analizuje około 30+ PetaBajtów danych generowanych przez użytkowników. Akamai (największa platforma chmurowa na świecie) analizuje 75 milionów wydarzeń dziennie, aby lepiej kierować ruchem danych. dr Robert Kowalczyk, PWSZ Płock

Kilka faktów z grabstats.com Walmart obsługuje ponad milion transakcji klienta na godzinę, które są importowana do baz danych, które mogą zawierać więcej niż 2,5 PetaBajtów danych. Ponad 5 miliardów osób dzwoni, wysyła SMS-y, tweetuje i przegląda strony internetowe w telefonach komórkowych na całym świecie. Dekodowanie ludzkiego genomu pierwotnie zajęło 10 lat; teraz można to osiągnąć w ciągu jednego tygodnia. W 2008 roku - dziesięć lat temu, Google przetwarzało 20 000 TeraBajtów danych (20 PetaBajtów) dziennie. Największa baza AT & T może pochwalić się tytułami, w tym największym tomem danych w jednej unikalnej bazie danych (312 terabajtów) i drugiej co do wielkości liczba wierszy w unikalnej bazie danych (1.9 biliona), która obejmuje rozległe rekordy rozmów telefonicznych AT & T. dr Robert Kowalczyk, PWSZ Płock

dr Robert Kowalczyk, PWSZ Płock Recommend This!: Delivering Digital Experiences that People Want to Share by 2014 by Kirby Wadsworth Jason Thibeault Użytkownicy YouTube przesyłają 48 godzin nowych filmów co minutę. 571 nowych stron internetowych tworzonych jest co minutę Firmy i organizacje na Facebooku otrzymują 34 722 lajków co minutę każdego dnia. 100 TeraBajtów danych jest wgrywanych na Facebooka codziennie. Według własnych badań Twittera z początkiem 2012 roku, jest około 175 milionów tweetów dziennie i jest ponad 465 milionów kont. 30 miliardów treści jest udostępnianych co miesiąc na Facebooku. Produkcja danych będzie 44 razy większa w 2020 roku niż jest w roku 2009. dr Robert Kowalczyk, PWSZ Płock

dr Robert Kowalczyk, PWSZ Płock Dane i prawo Moore’a Pod koniec 2011 r. IDC Digital Universe opublikowało raport wskazujący na to, że ilość danych wzrasta dwukrotnie mniej więcej co 14.5 miesiąca; w tym roku miało powstać około 1.8 ZettaBajtów danych (200 miliardów dwugodzinnych filmów HD). Dane przyrastają zatem szybciej niż słynne prawo Moore’a. Prawo Moore’a to termin używany do określenia praktycznie dowolnego postępu technologicznego i mówi tyle, że „moc obliczeniowa komputerów podwaja się co 24 miesiące” (orginalnie mówiło się o 18 miesiącach). dr Robert Kowalczyk, PWSZ Płock

Analiza danych – data analitics Analiza danych to nauka zajmująca się badaniem nieprzetworzonych danych w celu znajdowanie wzorców i wyciąganie wniosków na temat tych informacji przez zastosowanie procesu algorytmicznego lub mechanicznego do uzyskiwania wyników – pewnych zależności. Według Forbesa, rynek dużych analiz danych przekroczy wkrótce 200 miliardów dolarów. dr Robert Kowalczyk, PWSZ Płock

Analityk danych – data analyst Praca analityka danych polega na wnioskowaniu, które jest procesem wyprowadzania wniosków opartych na tym co naukowiec już wie, na przykład przechodząc przez wiele zestawów danych, aby szukać znaczących korelacji między nimi. Analiza danych jeż używana w wielu branżach, aby umożliwić organizacjom lepsze podejmowanie decyzji, a także weryfikację, czy obalanie danych teorii i modeli. dr Robert Kowalczyk, PWSZ Płock

Umiejętności analityka danych Umiejętności programowania: znajomość języków programowania R i Python. Umiejętności statystyczne i matematyczne: statystyki opisowe i inferencyjne. Umiejętności uczenia maszynowego. Zdolności do sprawdzania danych: możliwość mapowania nieprzetworzonych danych i przekształcania ich w inny format, który pozwala na bardziej wygodne użycie danych. Umiejętności komunikacyjne i wizualizacji danych. dr Robert Kowalczyk, PWSZ Płock

dr Robert Kowalczyk, PWSZ Płock BIG DATA Według Gartnera definicja Big Data brzmi: „są to duże zasoby informacyjne (danych) o dużej szybkości napływu oraz dużej różnorodności, tj. ich złożoności. Już wkrótce wymagane będą odpowiednie formy przetwarzania dużych zbiorów danych. dr Robert Kowalczyk, PWSZ Płock

dr Robert Kowalczyk, PWSZ Płock BIG DATA Hasło używane do opisywania ogromnych ilości danych niestrukturalnych jak również i strukturalnych. Innymi słowy, Big Data odnosi się do ogromnych ilości danych, których nie można skutecznie przetworzyć tradycyjnymi sposobami. Przetwarzanie Big Data rozpoczyna się od surowych danych, które nie są pogrupowane ani uporządkowane i najczęściej nie można ich przechowywać w pamięć jednego komputera. dr Robert Kowalczyk, PWSZ Płock

dr Robert Kowalczyk, PWSZ Płock Umiejętności big data Umiejętności analityczne: umiejętność rozumienia ogromu ilość danych, które otrzymujemy; ponadto analityczne podejście do rozwiązywania problemów, m.in. umiejętność określania które dane będą istotne. Kreatywność: umiejętność tworzenia nowych metod do: zbierania, interpretowania i analizować zbiorów danych. Matematyka i umiejętności statystyczne: dobra, staroświecka metoda pracy z liczbami jest absolutnie konieczna. Informatyka: komputery są „końmi pociągowymi” przy każdym problemie związanym z analizą danych; programiści muszą ciągle wymyślać nowe algorytmy do przetwarzania danych. Umiejętności biznesowe: specjaliści Big Data powinni mieć zrozumienie celów biznesowych, wraz z podstawowymi procesami, które napędzają zysk. dr Robert Kowalczyk, PWSZ Płock

Nauka o danych – data science Data Science to dziedzina, która obejmuje wszystko, co dotyczy czyszczenia, przygotowywania i analizy danych oraz radzenia sobie z niestrukturalnymi a także strukturalnymi danymi. Mówiąc prościej, Data Science jest terminem parasolowym dla technik używanych, kiedy próbuje wyodrębnić wglądy i informacje z danych. dr Robert Kowalczyk, PWSZ Płock

Naukowiec od danych - data scientist Naukowcy danych łączą statystykę, matematykę, programowanie, rozwiązywanie problemów, przechwytywanie danych w genialny sposób, umiejętność patrzenia na rzeczy inaczej, aby znaleźć wzorce, wraz z czynnościami oczyszczania, przygotowywania i dopasowywania danych. dr Robert Kowalczyk, PWSZ Płock

Umiejętności Data Science Dogłębna znajomość SAS i / lub R. W zakresie nauki o danych, ogólnie rzecz biorąc, R preferowane. Kodowanie w Pythonie: Python jest najczęściej używanym językiem kodowania wykorzystywane w naukach o danych wraz z Java, Perl, C / C ++. Platforma Hadoop: chociaż nie zawsze jest to wymagane, znając platformę Hadoop mamy duże możliwości w rozproszonym przetwarzaniu danych, dodatkowo preferowana jest znajomość narzędzi Hive i Pig. Kodowanie w SQL: chociaż NoSQL i Hadoop są głównymi kandydatami do wyboru jako umiejętności Data Science, to warto rozwijać również możliwości języka SQL. Praca z niestrukturalnymi danymi: niezwykle ważne jest dane niestrukturalne takie jak: multimedia, źródła wideo, audio lub inne. dr Robert Kowalczyk, PWSZ Płock

dr Robert Kowalczyk, PWSZ Płock Źródła danych Komputery Ludzie Organizacje dr Robert Kowalczyk, PWSZ Płock

Dane generowane przez maszyny Boing 787 wytwarza podczas jednego lotu około 0.5 TB danych. dr Robert Kowalczyk, PWSZ Płock

Dane generowane przez maszyny Monitor aktywności (activity tracker) może mierzyć: temperaturę ciała, tętno, odległość, kroki, itp. dr Robert Kowalczyk, PWSZ Płock

Dane generowane przez ludzi eBay – 100 PB / dzień Google – 100 PB / dzień Facebook – 30+ PB / dzień Twitter – 100 TB / dzień Spotify – 64 TB / dzień dr Robert Kowalczyk, PWSZ Płock

Dane strukturalne i niestrukturalne generowane przez ludzi Około 80-90% danych jest niestrukturalnych dr Robert Kowalczyk, PWSZ Płock

Dane generowane przez organizacje W 2018 roku przychód to 58 miliardów dolarów. W 2018 roku globalna wielkość dostawy wyniosła 5.2 miliarda paczek i dokumentów. Dzienna dostawa globalna 20.7 milionów paczek i dokumentów. Dzienny obrót międzynarodowy 3.2 miliona paczek i dokumentów. Obszar usług to ponad 220 krajów i terytoriów. Monitorowanie online 180 milionów żądań śledzenia dziennie. dr Robert Kowalczyk, PWSZ Płock

Dane generowane przez organizacje 2.5 PB danych generowanych co godzinę. 250 milionów konsumentów. 10 000 sklepów. Wydarzenia na Tweeterze, lokalna pogoda, lokalne wydarzenia, zakupy online. Wprowadzanie nowych produktów. Poprawa analizy predykcyjnej. Dostosowywanie rekomendacji. dr Robert Kowalczyk, PWSZ Płock

5V charakteryzujące BIG DATA Volume (rozmiar danych) – danych z założenia powinno być bardzo dużo liczonych w terabajtach lub petabajtach. Potrzebne są odpowiednie narzędzia do przechowywania i analizowania tak dużych zbiorów danych. Velocity (szybkość napływu danych) – odnosi się do szybkości z jaką dane napływają i są analizowane, np. dane na Twiterze. Variety (różnorodność danych) – dane pochodzą z różnych źródeł i są strukturalne i niestrukturalne (teksty, tabele, zdjęcia, dane z czujników, filmy, nagrania dźwiękowe, itp.). Veracity (wiarygodność danych) – dane powinny zawierać prawdziwe informacje, nie posiadać błędów w zapisie, brakujących informacji, wielokrotnie wprowadzone te same wartości. Value (wartość danych) – należy ustalić które dane są istotne a które nie, wyszczególnić które są celem badania. dr Robert Kowalczyk, PWSZ Płock

dr Robert Kowalczyk, PWSZ Płock Jeszcze raz 5V BIG DATA dr Robert Kowalczyk, PWSZ Płock

Kroki w procesie obróbki danych Przyswojenie danych – identyfikacja dostępnych danych, odczytywanie danych z baz SQL, skryptów, web-serwisów itp. Przygotowanie danych – badanie danych aby je zrozumieć, opis, wizualizacja, wstępne przetwarzanie i czyszczenie, GARBAGE IN = GARBAGE OUT. Analiza danych (budowanie modelu) – dane wejściowe, techniki analizy (klasyfikacja, klasteryzacja, regresja, analiza grafowa, analiza skojarzeń), model, model wyjściowy. Raportowanie wyników – Python, R, Tableau i Timeline. Działanie – łączenie otrzymanych wyników z zapytaniem biznesowym. dr Robert Kowalczyk, PWSZ Płock

dr Robert Kowalczyk, PWSZ Płock Zadanka z jednostkami Zad 1 2.7 ZetaBajtów danych istnieje w dzisiejszym świecie cyfrowej informacji. Ile to MegaBajtów, KiloBajtów, Bajtów? Zad 2 Zakładając, że dane się podwajają co 15 miesięcy ile będzie danych za 10 lat? Zad 3 Oszacować ile książek do informatyki można zapisać używając 1 TB. Przypuśćmy, że książka ma średnio 400 stron i jest formatu B5. Zad 4 Ile dwugodzinnych filmów HD można zapisać za pomocą 2 ZetaBajtów danych. dr Robert Kowalczyk, PWSZ Płock

Dziękuję za Uwagę!!! 