dr Robert Kowalczyk, PWSZ Płock Drążenie danych dr Robert Kowalczyk, PWSZ Płock
dr Robert Kowalczyk, PWSZ Płock Co to są dane? Dane (z ang. data, łac. datum) – zbiory liczb i tekstów o różnych formach. Według Gadomskiego metateorii TOGA dane są zdefiniowane jako wszystko co jest/może być przetwarzane umysłowo lub komputerowo. W tym sensie dane są pojęciem relatywnym, istnieją tylko razem z pojęciem przetwarzania danych i mogą przyjmować takie postaci jak: znaki, mowa, wykresy i sygnały. Dane używane są przez komputery do obliczeń. Mogą też być prezentowane bądź przetwarzane. Dane mogą być przedstawiane i przechowywane w postaci zbiorów danych – komputerowo baz danych. dr Robert Kowalczyk, PWSZ Płock
Jednostki informacji – jak mierzymy dane? Bajt (dop. bajtu lub bajta) – najmniejsza adresowalna jednostka informacji pamięci komputerowej, składająca się z bitów (często 8). Bit (z ang. kawałek, także skrót od binary digit, czyli cyfra dwójkowa) – najmniejsza ilość informacji potrzebna do określenia, który z dwóch równie prawdopodobnych stanów przyjął układ. dr Robert Kowalczyk, PWSZ Płock
Kilka faktów z grabstats.com 2.7 ZetaBajtów danych istnieje w dzisiejszym świecie cyfrowej informacji. 235 TeraBajtów danych zostało zgromadzonych przez Bibliotekę Kongresu Stanów Zjednoczonych w 2011 roku. Administracja prezydenta Obamy zainwestowała 200 milionów dolarów w projekty dotyczące BIG DATA Międzynarodowa Korporacja Danych (IDC) szacuje, że do 2020, transakcje biznesowe osiągną 450 miliardów dziennie. Facebook gromadzi i analizuje około 30+ PetaBajtów danych generowanych przez użytkowników. Akamai (największa platforma chmurowa na świecie) analizuje 75 milionów wydarzeń dziennie, aby lepiej kierować ruchem danych. dr Robert Kowalczyk, PWSZ Płock
Kilka faktów z grabstats.com Walmart obsługuje ponad milion transakcji klienta na godzinę, które są importowana do baz danych, które mogą zawierać więcej niż 2,5 PetaBajtów danych. Ponad 5 miliardów osób dzwoni, wysyła SMS-y, tweetuje i przegląda strony internetowe w telefonach komórkowych na całym świecie. Dekodowanie ludzkiego genomu pierwotnie zajęło 10 lat; teraz można to osiągnąć w ciągu jednego tygodnia. W 2008 roku - dziesięć lat temu, Google przetwarzało 20 000 TeraBajtów danych (20 PetaBajtów) dziennie. Największa baza AT & T może pochwalić się tytułami, w tym największym tomem danych w jednej unikalnej bazie danych (312 terabajtów) i drugiej co do wielkości liczba wierszy w unikalnej bazie danych (1.9 biliona), która obejmuje rozległe rekordy rozmów telefonicznych AT & T. dr Robert Kowalczyk, PWSZ Płock
dr Robert Kowalczyk, PWSZ Płock Recommend This!: Delivering Digital Experiences that People Want to Share by 2014 by Kirby Wadsworth Jason Thibeault Użytkownicy YouTube przesyłają 48 godzin nowych filmów co minutę. 571 nowych stron internetowych tworzonych jest co minutę Firmy i organizacje na Facebooku otrzymują 34 722 lajków co minutę każdego dnia. 100 TeraBajtów danych jest wgrywanych na Facebooka codziennie. Według własnych badań Twittera z początkiem 2012 roku, jest około 175 milionów tweetów dziennie i jest ponad 465 milionów kont. 30 miliardów treści jest udostępnianych co miesiąc na Facebooku. Produkcja danych będzie 44 razy większa w 2020 roku niż jest w roku 2009. dr Robert Kowalczyk, PWSZ Płock
dr Robert Kowalczyk, PWSZ Płock Dane i prawo Moore’a Pod koniec 2011 r. IDC Digital Universe opublikowało raport wskazujący na to, że ilość danych wzrasta dwukrotnie mniej więcej co 14.5 miesiąca; w tym roku miało powstać około 1.8 ZettaBajtów danych (200 miliardów dwugodzinnych filmów HD). Dane przyrastają zatem szybciej niż słynne prawo Moore’a. Prawo Moore’a to termin używany do określenia praktycznie dowolnego postępu technologicznego i mówi tyle, że „moc obliczeniowa komputerów podwaja się co 24 miesiące” (orginalnie mówiło się o 18 miesiącach). dr Robert Kowalczyk, PWSZ Płock
Analiza danych – data analitics Analiza danych to nauka zajmująca się badaniem nieprzetworzonych danych w celu znajdowanie wzorców i wyciąganie wniosków na temat tych informacji przez zastosowanie procesu algorytmicznego lub mechanicznego do uzyskiwania wyników – pewnych zależności. Według Forbesa, rynek dużych analiz danych przekroczy wkrótce 200 miliardów dolarów. dr Robert Kowalczyk, PWSZ Płock
Analityk danych – data analyst Praca analityka danych polega na wnioskowaniu, które jest procesem wyprowadzania wniosków opartych na tym co naukowiec już wie, na przykład przechodząc przez wiele zestawów danych, aby szukać znaczących korelacji między nimi. Analiza danych jeż używana w wielu branżach, aby umożliwić organizacjom lepsze podejmowanie decyzji, a także weryfikację, czy obalanie danych teorii i modeli. dr Robert Kowalczyk, PWSZ Płock
Umiejętności analityka danych Umiejętności programowania: znajomość języków programowania R i Python. Umiejętności statystyczne i matematyczne: statystyki opisowe i inferencyjne. Umiejętności uczenia maszynowego. Zdolności do sprawdzania danych: możliwość mapowania nieprzetworzonych danych i przekształcania ich w inny format, który pozwala na bardziej wygodne użycie danych. Umiejętności komunikacyjne i wizualizacji danych. dr Robert Kowalczyk, PWSZ Płock
dr Robert Kowalczyk, PWSZ Płock BIG DATA Według Gartnera definicja Big Data brzmi: „są to duże zasoby informacyjne (danych) o dużej szybkości napływu oraz dużej różnorodności, tj. ich złożoności. Już wkrótce wymagane będą odpowiednie formy przetwarzania dużych zbiorów danych. dr Robert Kowalczyk, PWSZ Płock
dr Robert Kowalczyk, PWSZ Płock BIG DATA Hasło używane do opisywania ogromnych ilości danych niestrukturalnych jak również i strukturalnych. Innymi słowy, Big Data odnosi się do ogromnych ilości danych, których nie można skutecznie przetworzyć tradycyjnymi sposobami. Przetwarzanie Big Data rozpoczyna się od surowych danych, które nie są pogrupowane ani uporządkowane i najczęściej nie można ich przechowywać w pamięć jednego komputera. dr Robert Kowalczyk, PWSZ Płock
dr Robert Kowalczyk, PWSZ Płock Umiejętności big data Umiejętności analityczne: umiejętność rozumienia ogromu ilość danych, które otrzymujemy; ponadto analityczne podejście do rozwiązywania problemów, m.in. umiejętność określania które dane będą istotne. Kreatywność: umiejętność tworzenia nowych metod do: zbierania, interpretowania i analizować zbiorów danych. Matematyka i umiejętności statystyczne: dobra, staroświecka metoda pracy z liczbami jest absolutnie konieczna. Informatyka: komputery są „końmi pociągowymi” przy każdym problemie związanym z analizą danych; programiści muszą ciągle wymyślać nowe algorytmy do przetwarzania danych. Umiejętności biznesowe: specjaliści Big Data powinni mieć zrozumienie celów biznesowych, wraz z podstawowymi procesami, które napędzają zysk. dr Robert Kowalczyk, PWSZ Płock
Nauka o danych – data science Data Science to dziedzina, która obejmuje wszystko, co dotyczy czyszczenia, przygotowywania i analizy danych oraz radzenia sobie z niestrukturalnymi a także strukturalnymi danymi. Mówiąc prościej, Data Science jest terminem parasolowym dla technik używanych, kiedy próbuje wyodrębnić wglądy i informacje z danych. dr Robert Kowalczyk, PWSZ Płock
Naukowiec od danych - data scientist Naukowcy danych łączą statystykę, matematykę, programowanie, rozwiązywanie problemów, przechwytywanie danych w genialny sposób, umiejętność patrzenia na rzeczy inaczej, aby znaleźć wzorce, wraz z czynnościami oczyszczania, przygotowywania i dopasowywania danych. dr Robert Kowalczyk, PWSZ Płock
Umiejętności Data Science Dogłębna znajomość SAS i / lub R. W zakresie nauki o danych, ogólnie rzecz biorąc, R preferowane. Kodowanie w Pythonie: Python jest najczęściej używanym językiem kodowania wykorzystywane w naukach o danych wraz z Java, Perl, C / C ++. Platforma Hadoop: chociaż nie zawsze jest to wymagane, znając platformę Hadoop mamy duże możliwości w rozproszonym przetwarzaniu danych, dodatkowo preferowana jest znajomość narzędzi Hive i Pig. Kodowanie w SQL: chociaż NoSQL i Hadoop są głównymi kandydatami do wyboru jako umiejętności Data Science, to warto rozwijać również możliwości języka SQL. Praca z niestrukturalnymi danymi: niezwykle ważne jest dane niestrukturalne takie jak: multimedia, źródła wideo, audio lub inne. dr Robert Kowalczyk, PWSZ Płock
dr Robert Kowalczyk, PWSZ Płock Źródła danych Komputery Ludzie Organizacje dr Robert Kowalczyk, PWSZ Płock
Dane generowane przez maszyny Boing 787 wytwarza podczas jednego lotu około 0.5 TB danych. dr Robert Kowalczyk, PWSZ Płock
Dane generowane przez maszyny Monitor aktywności (activity tracker) może mierzyć: temperaturę ciała, tętno, odległość, kroki, itp. dr Robert Kowalczyk, PWSZ Płock
Dane generowane przez ludzi eBay – 100 PB / dzień Google – 100 PB / dzień Facebook – 30+ PB / dzień Twitter – 100 TB / dzień Spotify – 64 TB / dzień dr Robert Kowalczyk, PWSZ Płock
Dane strukturalne i niestrukturalne generowane przez ludzi Około 80-90% danych jest niestrukturalnych dr Robert Kowalczyk, PWSZ Płock
Dane generowane przez organizacje W 2018 roku przychód to 58 miliardów dolarów. W 2018 roku globalna wielkość dostawy wyniosła 5.2 miliarda paczek i dokumentów. Dzienna dostawa globalna 20.7 milionów paczek i dokumentów. Dzienny obrót międzynarodowy 3.2 miliona paczek i dokumentów. Obszar usług to ponad 220 krajów i terytoriów. Monitorowanie online 180 milionów żądań śledzenia dziennie. dr Robert Kowalczyk, PWSZ Płock
Dane generowane przez organizacje 2.5 PB danych generowanych co godzinę. 250 milionów konsumentów. 10 000 sklepów. Wydarzenia na Tweeterze, lokalna pogoda, lokalne wydarzenia, zakupy online. Wprowadzanie nowych produktów. Poprawa analizy predykcyjnej. Dostosowywanie rekomendacji. dr Robert Kowalczyk, PWSZ Płock
5V charakteryzujące BIG DATA Volume (rozmiar danych) – danych z założenia powinno być bardzo dużo liczonych w terabajtach lub petabajtach. Potrzebne są odpowiednie narzędzia do przechowywania i analizowania tak dużych zbiorów danych. Velocity (szybkość napływu danych) – odnosi się do szybkości z jaką dane napływają i są analizowane, np. dane na Twiterze. Variety (różnorodność danych) – dane pochodzą z różnych źródeł i są strukturalne i niestrukturalne (teksty, tabele, zdjęcia, dane z czujników, filmy, nagrania dźwiękowe, itp.). Veracity (wiarygodność danych) – dane powinny zawierać prawdziwe informacje, nie posiadać błędów w zapisie, brakujących informacji, wielokrotnie wprowadzone te same wartości. Value (wartość danych) – należy ustalić które dane są istotne a które nie, wyszczególnić które są celem badania. dr Robert Kowalczyk, PWSZ Płock
dr Robert Kowalczyk, PWSZ Płock Jeszcze raz 5V BIG DATA dr Robert Kowalczyk, PWSZ Płock
Kroki w procesie obróbki danych Przyswojenie danych – identyfikacja dostępnych danych, odczytywanie danych z baz SQL, skryptów, web-serwisów itp. Przygotowanie danych – badanie danych aby je zrozumieć, opis, wizualizacja, wstępne przetwarzanie i czyszczenie, GARBAGE IN = GARBAGE OUT. Analiza danych (budowanie modelu) – dane wejściowe, techniki analizy (klasyfikacja, klasteryzacja, regresja, analiza grafowa, analiza skojarzeń), model, model wyjściowy. Raportowanie wyników – Python, R, Tableau i Timeline. Działanie – łączenie otrzymanych wyników z zapytaniem biznesowym. dr Robert Kowalczyk, PWSZ Płock
dr Robert Kowalczyk, PWSZ Płock Zadanka z jednostkami Zad 1 2.7 ZetaBajtów danych istnieje w dzisiejszym świecie cyfrowej informacji. Ile to MegaBajtów, KiloBajtów, Bajtów? Zad 2 Zakładając, że dane się podwajają co 15 miesięcy ile będzie danych za 10 lat? Zad 3 Oszacować ile książek do informatyki można zapisać używając 1 TB. Przypuśćmy, że książka ma średnio 400 stron i jest formatu B5. Zad 4 Ile dwugodzinnych filmów HD można zapisać za pomocą 2 ZetaBajtów danych. dr Robert Kowalczyk, PWSZ Płock
Dziękuję za Uwagę!!!