Pobierz prezentację
Pobieranie prezentacji. Proszę czekać
1
dr Robert Kowalczyk, PWSZ Płock
Drążenie danych dr Robert Kowalczyk, PWSZ Płock
2
dr Robert Kowalczyk, PWSZ Płock
Co to są dane? Dane (z ang. data, łac. datum) – zbiory liczb i tekstów o różnych formach. Według Gadomskiego metateorii TOGA dane są zdefiniowane jako wszystko co jest/może być przetwarzane umysłowo lub komputerowo. W tym sensie dane są pojęciem relatywnym, istnieją tylko razem z pojęciem przetwarzania danych i mogą przyjmować takie postaci jak: znaki, mowa, wykresy i sygnały. Dane używane są przez komputery do obliczeń. Mogą też być prezentowane bądź przetwarzane. Dane mogą być przedstawiane i przechowywane w postaci zbiorów danych – komputerowo baz danych. dr Robert Kowalczyk, PWSZ Płock
3
Jednostki informacji – jak mierzymy dane?
Bajt (dop. bajtu lub bajta) – najmniejsza adresowalna jednostka informacji pamięci komputerowej, składająca się z bitów (często 8). Bit (z ang. kawałek, także skrót od binary digit, czyli cyfra dwójkowa) – najmniejsza ilość informacji potrzebna do określenia, który z dwóch równie prawdopodobnych stanów przyjął układ. dr Robert Kowalczyk, PWSZ Płock
4
Kilka faktów z grabstats.com
2.7 ZetaBajtów danych istnieje w dzisiejszym świecie cyfrowej informacji. 235 TeraBajtów danych zostało zgromadzonych przez Bibliotekę Kongresu Stanów Zjednoczonych w 2011 roku. Administracja prezydenta Obamy zainwestowała 200 milionów dolarów w projekty dotyczące BIG DATA Międzynarodowa Korporacja Danych (IDC) szacuje, że do 2020, transakcje biznesowe osiągną 450 miliardów dziennie. Facebook gromadzi i analizuje około 30+ PetaBajtów danych generowanych przez użytkowników. Akamai (największa platforma chmurowa na świecie) analizuje 75 milionów wydarzeń dziennie, aby lepiej kierować ruchem danych. dr Robert Kowalczyk, PWSZ Płock
5
Kilka faktów z grabstats.com
Walmart obsługuje ponad milion transakcji klienta na godzinę, które są importowana do baz danych, które mogą zawierać więcej niż 2,5 PetaBajtów danych. Ponad 5 miliardów osób dzwoni, wysyła SMS-y, tweetuje i przegląda strony internetowe w telefonach komórkowych na całym świecie. Dekodowanie ludzkiego genomu pierwotnie zajęło 10 lat; teraz można to osiągnąć w ciągu jednego tygodnia. W 2008 roku - dziesięć lat temu, Google przetwarzało TeraBajtów danych (20 PetaBajtów) dziennie. Największa baza AT & T może pochwalić się tytułami, w tym największym tomem danych w jednej unikalnej bazie danych (312 terabajtów) i drugiej co do wielkości liczba wierszy w unikalnej bazie danych (1.9 biliona), która obejmuje rozległe rekordy rozmów telefonicznych AT & T. dr Robert Kowalczyk, PWSZ Płock
6
dr Robert Kowalczyk, PWSZ Płock
Recommend This!: Delivering Digital Experiences that People Want to Share by 2014 by Kirby Wadsworth Jason Thibeault Użytkownicy YouTube przesyłają 48 godzin nowych filmów co minutę. 571 nowych stron internetowych tworzonych jest co minutę Firmy i organizacje na Facebooku otrzymują lajków co minutę każdego dnia. 100 TeraBajtów danych jest wgrywanych na Facebooka codziennie. Według własnych badań Twittera z początkiem 2012 roku, jest około 175 milionów tweetów dziennie i jest ponad 465 milionów kont. 30 miliardów treści jest udostępnianych co miesiąc na Facebooku. Produkcja danych będzie 44 razy większa w 2020 roku niż jest w roku 2009. dr Robert Kowalczyk, PWSZ Płock
7
dr Robert Kowalczyk, PWSZ Płock
Dane i prawo Moore’a Pod koniec 2011 r. IDC Digital Universe opublikowało raport wskazujący na to, że ilość danych wzrasta dwukrotnie mniej więcej co 14.5 miesiąca; w tym roku miało powstać około 1.8 ZettaBajtów danych (200 miliardów dwugodzinnych filmów HD). Dane przyrastają zatem szybciej niż słynne prawo Moore’a. Prawo Moore’a to termin używany do określenia praktycznie dowolnego postępu technologicznego i mówi tyle, że „moc obliczeniowa komputerów podwaja się co 24 miesiące” (orginalnie mówiło się o 18 miesiącach). dr Robert Kowalczyk, PWSZ Płock
8
Analiza danych – data analitics
Analiza danych to nauka zajmująca się badaniem nieprzetworzonych danych w celu znajdowanie wzorców i wyciąganie wniosków na temat tych informacji przez zastosowanie procesu algorytmicznego lub mechanicznego do uzyskiwania wyników – pewnych zależności. Według Forbesa, rynek dużych analiz danych przekroczy wkrótce 200 miliardów dolarów. dr Robert Kowalczyk, PWSZ Płock
9
Analityk danych – data analyst
Praca analityka danych polega na wnioskowaniu, które jest procesem wyprowadzania wniosków opartych na tym co naukowiec już wie, na przykład przechodząc przez wiele zestawów danych, aby szukać znaczących korelacji między nimi. Analiza danych jeż używana w wielu branżach, aby umożliwić organizacjom lepsze podejmowanie decyzji, a także weryfikację, czy obalanie danych teorii i modeli. dr Robert Kowalczyk, PWSZ Płock
10
Umiejętności analityka danych
Umiejętności programowania: znajomość języków programowania R i Python. Umiejętności statystyczne i matematyczne: statystyki opisowe i inferencyjne. Umiejętności uczenia maszynowego. Zdolności do sprawdzania danych: możliwość mapowania nieprzetworzonych danych i przekształcania ich w inny format, który pozwala na bardziej wygodne użycie danych. Umiejętności komunikacyjne i wizualizacji danych. dr Robert Kowalczyk, PWSZ Płock
11
dr Robert Kowalczyk, PWSZ Płock
BIG DATA Według Gartnera definicja Big Data brzmi: „są to duże zasoby informacyjne (danych) o dużej szybkości napływu oraz dużej różnorodności, tj. ich złożoności. Już wkrótce wymagane będą odpowiednie formy przetwarzania dużych zbiorów danych. dr Robert Kowalczyk, PWSZ Płock
12
dr Robert Kowalczyk, PWSZ Płock
BIG DATA Hasło używane do opisywania ogromnych ilości danych niestrukturalnych jak również i strukturalnych. Innymi słowy, Big Data odnosi się do ogromnych ilości danych, których nie można skutecznie przetworzyć tradycyjnymi sposobami. Przetwarzanie Big Data rozpoczyna się od surowych danych, które nie są pogrupowane ani uporządkowane i najczęściej nie można ich przechowywać w pamięć jednego komputera. dr Robert Kowalczyk, PWSZ Płock
13
dr Robert Kowalczyk, PWSZ Płock
Umiejętności big data Umiejętności analityczne: umiejętność rozumienia ogromu ilość danych, które otrzymujemy; ponadto analityczne podejście do rozwiązywania problemów, m.in. umiejętność określania które dane będą istotne. Kreatywność: umiejętność tworzenia nowych metod do: zbierania, interpretowania i analizować zbiorów danych. Matematyka i umiejętności statystyczne: dobra, staroświecka metoda pracy z liczbami jest absolutnie konieczna. Informatyka: komputery są „końmi pociągowymi” przy każdym problemie związanym z analizą danych; programiści muszą ciągle wymyślać nowe algorytmy do przetwarzania danych. Umiejętności biznesowe: specjaliści Big Data powinni mieć zrozumienie celów biznesowych, wraz z podstawowymi procesami, które napędzają zysk. dr Robert Kowalczyk, PWSZ Płock
14
Nauka o danych – data science
Data Science to dziedzina, która obejmuje wszystko, co dotyczy czyszczenia, przygotowywania i analizy danych oraz radzenia sobie z niestrukturalnymi a także strukturalnymi danymi. Mówiąc prościej, Data Science jest terminem parasolowym dla technik używanych, kiedy próbuje wyodrębnić wglądy i informacje z danych. dr Robert Kowalczyk, PWSZ Płock
15
Naukowiec od danych - data scientist
Naukowcy danych łączą statystykę, matematykę, programowanie, rozwiązywanie problemów, przechwytywanie danych w genialny sposób, umiejętność patrzenia na rzeczy inaczej, aby znaleźć wzorce, wraz z czynnościami oczyszczania, przygotowywania i dopasowywania danych. dr Robert Kowalczyk, PWSZ Płock
16
Umiejętności Data Science
Dogłębna znajomość SAS i / lub R. W zakresie nauki o danych, ogólnie rzecz biorąc, R preferowane. Kodowanie w Pythonie: Python jest najczęściej używanym językiem kodowania wykorzystywane w naukach o danych wraz z Java, Perl, C / C ++. Platforma Hadoop: chociaż nie zawsze jest to wymagane, znając platformę Hadoop mamy duże możliwości w rozproszonym przetwarzaniu danych, dodatkowo preferowana jest znajomość narzędzi Hive i Pig. Kodowanie w SQL: chociaż NoSQL i Hadoop są głównymi kandydatami do wyboru jako umiejętności Data Science, to warto rozwijać również możliwości języka SQL. Praca z niestrukturalnymi danymi: niezwykle ważne jest dane niestrukturalne takie jak: multimedia, źródła wideo, audio lub inne. dr Robert Kowalczyk, PWSZ Płock
17
dr Robert Kowalczyk, PWSZ Płock
Źródła danych Komputery Ludzie Organizacje dr Robert Kowalczyk, PWSZ Płock
18
Dane generowane przez maszyny
Boing 787 wytwarza podczas jednego lotu około 0.5 TB danych. dr Robert Kowalczyk, PWSZ Płock
19
Dane generowane przez maszyny
Monitor aktywności (activity tracker) może mierzyć: temperaturę ciała, tętno, odległość, kroki, itp. dr Robert Kowalczyk, PWSZ Płock
20
Dane generowane przez ludzi
eBay – 100 PB / dzień Google – 100 PB / dzień Facebook – 30+ PB / dzień Twitter – 100 TB / dzień Spotify – 64 TB / dzień dr Robert Kowalczyk, PWSZ Płock
21
Dane strukturalne i niestrukturalne generowane przez ludzi
Około 80-90% danych jest niestrukturalnych dr Robert Kowalczyk, PWSZ Płock
22
Dane generowane przez organizacje
W 2018 roku przychód to 58 miliardów dolarów. W 2018 roku globalna wielkość dostawy wyniosła 5.2 miliarda paczek i dokumentów. Dzienna dostawa globalna 20.7 milionów paczek i dokumentów. Dzienny obrót międzynarodowy 3.2 miliona paczek i dokumentów. Obszar usług to ponad 220 krajów i terytoriów. Monitorowanie online 180 milionów żądań śledzenia dziennie. dr Robert Kowalczyk, PWSZ Płock
23
Dane generowane przez organizacje
2.5 PB danych generowanych co godzinę. 250 milionów konsumentów. sklepów. Wydarzenia na Tweeterze, lokalna pogoda, lokalne wydarzenia, zakupy online. Wprowadzanie nowych produktów. Poprawa analizy predykcyjnej. Dostosowywanie rekomendacji. dr Robert Kowalczyk, PWSZ Płock
24
5V charakteryzujące BIG DATA
Volume (rozmiar danych) – danych z założenia powinno być bardzo dużo liczonych w terabajtach lub petabajtach. Potrzebne są odpowiednie narzędzia do przechowywania i analizowania tak dużych zbiorów danych. Velocity (szybkość napływu danych) – odnosi się do szybkości z jaką dane napływają i są analizowane, np. dane na Twiterze. Variety (różnorodność danych) – dane pochodzą z różnych źródeł i są strukturalne i niestrukturalne (teksty, tabele, zdjęcia, dane z czujników, filmy, nagrania dźwiękowe, itp.). Veracity (wiarygodność danych) – dane powinny zawierać prawdziwe informacje, nie posiadać błędów w zapisie, brakujących informacji, wielokrotnie wprowadzone te same wartości. Value (wartość danych) – należy ustalić które dane są istotne a które nie, wyszczególnić które są celem badania. dr Robert Kowalczyk, PWSZ Płock
25
dr Robert Kowalczyk, PWSZ Płock
Jeszcze raz 5V BIG DATA dr Robert Kowalczyk, PWSZ Płock
26
Kroki w procesie obróbki danych
Przyswojenie danych – identyfikacja dostępnych danych, odczytywanie danych z baz SQL, skryptów, web-serwisów itp. Przygotowanie danych – badanie danych aby je zrozumieć, opis, wizualizacja, wstępne przetwarzanie i czyszczenie, GARBAGE IN = GARBAGE OUT. Analiza danych (budowanie modelu) – dane wejściowe, techniki analizy (klasyfikacja, klasteryzacja, regresja, analiza grafowa, analiza skojarzeń), model, model wyjściowy. Raportowanie wyników – Python, R, Tableau i Timeline. Działanie – łączenie otrzymanych wyników z zapytaniem biznesowym. dr Robert Kowalczyk, PWSZ Płock
27
dr Robert Kowalczyk, PWSZ Płock
Zadanka z jednostkami Zad 1 2.7 ZetaBajtów danych istnieje w dzisiejszym świecie cyfrowej informacji. Ile to MegaBajtów, KiloBajtów, Bajtów? Zad 2 Zakładając, że dane się podwajają co 15 miesięcy ile będzie danych za 10 lat? Zad 3 Oszacować ile książek do informatyki można zapisać używając 1 TB. Przypuśćmy, że książka ma średnio 400 stron i jest formatu B5. Zad 4 Ile dwugodzinnych filmów HD można zapisać za pomocą 2 ZetaBajtów danych. dr Robert Kowalczyk, PWSZ Płock
28
Dziękuję za Uwagę!!!
Podobne prezentacje
© 2024 SlidePlayer.pl Inc.
All rights reserved.