Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

1 Eksploracja danych Drążymy informację ale zbieramy wiedzę - słowa Johna Naisbetta, motto z książki Advances in knowledge discovery and data mining.

Podobne prezentacje


Prezentacja na temat: "1 Eksploracja danych Drążymy informację ale zbieramy wiedzę - słowa Johna Naisbetta, motto z książki Advances in knowledge discovery and data mining."— Zapis prezentacji:

1 1 Eksploracja danych Drążymy informację ale zbieramy wiedzę - słowa Johna Naisbetta, motto z książki Advances in knowledge discovery and data mining

2 2 Odkrywanie wiedzy w bazach danych a Data Mining n Data Mining (DM) czyli przekopywanie danych zajmuje się odkrywaniem ukrytej wiedzy, nieznanych wzorców i nowych reguł w dużych bazach danych. n Knowledge discovery in databases (KDD) - większy proces, którego częścią jest DM. n KDD - praktyczne podejście wykorzystania informacji jako czynnika produkcji

3 3 Nowe wyzwania n Ekspotencjalny wzrost ilości danych n Stara prawda: im więcej danych tym mniej informacji n Poszukiwanie igły w stogu siana

4 4 Zastosowania - przykłady n Segmentacja klientów (np. dla celów reklamy) n Wykrywanie serii czasowych n Wykrywanie oszustw (odszkodowania, kredyty, itp.) n Redukcja kosztów firmy (przewidywanie ścieżek rozwoju pracowników na podstawie danych historycznych)

5 5 Przykład segmentacji

6 6 Dlaczego nie zwykły SQL ? n 80% informacji - SQL n 20% informacji - ukryta wiedza wymagająca zaawansowanych technik n Kluczem do KDD jest zrozumienie, że istnieje więcej informacji niż widać na pierwszy rzut oka.

7 7 Cztery typy wiedzy

8 8 n Powierzchowna - wystarczy SQL n Wielowymiarowa - OLAP (szybciej) lub SQL (dużo dłużej) n Ukryta - KDD (potrzebuje godzin) lub SQL (potrzeba miesięcy pracy) n Głęboka - wymaga klucza (wiedzy) według którego wyszukujemy informacje

9 9 Kroki przygotowania środowiska KDD 1. Lista wymagań 2. Przegląd sprzętu i oprogramowania 3. Przegląd jakości dostępnych danych 4. Lista dostępnych baz danych 5. Jeśli istnieje hurtownia danych: jakie dane są dostępne? 6. Jakiej wiedzy oczekuje organizacja teraz i w przyszłości? 7. Identyfikacja grup decydentów w organizacji 8. Analiza przydatności wyszukiwanych informacji 9. Lista potrzebnych zmian w bazach danych

10 10 Kroki tworzenia środowiska KDD

11 11 Czyszczenie bazy danych n Zanieczyszczenie danych pojawia się w bazie na wielu etapach. Najwięcej przy wprowadzaniu danych. n Czyszczenie –usuwanie błędnych/ niepełnych rekordów –reorganizacja wprowadzania danych

12 12 Wzbogacanie danych n Współpraca między firmami (uwaga na ochronę danych osobowych!), dane zagregowane o grupach klientów (nie zawierające danych osobowych) n Dane demograficzne

13 13 Data Mining n Nie istnieje jedyny i najlepszy algorytm uczenia maszynowego lub rozpoznawania wzorców n DM wymaga: –skutecznej metody próbkowania –przechowywania wyników pośrednich –indeksów geometrycznych (do przeszukiwania sąsiedztwa punktu) lub indeksów bitmapowych

14 14 10 złotych reguł tworzenia KDD (1/2) 1) Wsparcie dla bardzo dużych wolumenów danych 2) Wsparcie dla hybrydowych algorytmów uczących 3) Hurtownia danych 4) Wdrożenie algorytmów czyszczenia danych 5) Umożliwienie dynamicznego kodowania (eksperymentów z modelem)

15 15 10 złotych reguł tworzenia KDD (2/2) 6) Integracja z system wspomagania decyzji 7) Elastyczna architektura 8) Wsparcie dla baz heterogenicznych i innych źródeł danych (pliki, bazy obiektowe itp.) 9) Wdrożenie architektury klient/serwer 10) Optymalizacja dostępu do b.d. na niskim poziomie

16 16 Drzewa decyzyjne n węzły reprezentują testy przeprowadzane na atrybutach n liście reprezentują etykiety kategorii przypisywane przykładom n zaletami drzew decyzyjnych są m.in.: –możliwość reprezentacji dowolnych hipotez dla danego zbioru atrybutów –efektywność pamięciowa i czasowa klasyfikacji –czytelność reprezentacji

17 17 Przykład dzieńauratemperaturawilgotnośćwiatrgrać ? d1słonecznagorącowysokasłabynie d2słonecznagorącowysokasilnynie d3pochmurnagorącowysokasłabytak d4deszczowaśredniowysokasłabytak d5deszczowazimnonormalnasłabytak d6deszczowazimnonormalnasilnynie d7pochmurnazimnonormalnasilnytak d8słonecznaśredniowysokasłabynie d9słonecznazimnonormalnasłabytak d10deszczowaśrednionormalnasłabytak d11słonecznaśrednionormalnasilnytak d12pochmurnaśredniowysokasilnytak d13pochmurnagorąconormalnasłabytak d14deszczowaśredniowysokasilnynie

18 18 Przykład prostego drzewa decyzyjnego dla stanów pogody do podjęcia decyzji o rozpoczęciu gry w golfa (1) lub tenisa ziemnego (0).

19 19 Brakujące wartości w danych podczas uczenia się n Pomijanie - usuwanie ze zbioru P przykładów, dla których badany atrybut jest nieznany n Wypełnianie - brakujące wartości atrybutu a są wypełniane według jednej z zasad: n najczęściej występująca wartość tego atrybutu w zbiorze P n najczęściej występująca wartość tego atrybutu w zbiorze przykładów tej samej kategorii n wartość ustalona na podstawie znanych wartości innych atrybutów

20 20 Brakujące wartości w danych podczas uczenia się Podział - zastąpienie przykładów z nieznaną wartością przykładami ułamkowymi dla różnych występujących w zbiorze P wartości. Podział - zastąpienie przykładów z nieznaną wartością przykładami ułamkowymi dla różnych występujących w zbiorze P wartości. Losowanie - przykład z nieznaną wartością jest przydzielany losowo z prawdopodobieństwem proporcjonalnym do częstości występowania odpowiednich wartości w P Losowanie - przykład z nieznaną wartością jest przydzielany losowo z prawdopodobieństwem proporcjonalnym do częstości występowania odpowiednich wartości w P Oddzielna gałąź - dla węzła gdzie testowany jest argument z nieznaną wartością tworzona jest dodatkowa gałąź zawierająca przypadki z odpowiadające nieznanemu wynikowi testu Oddzielna gałąź - dla węzła gdzie testowany jest argument z nieznaną wartością tworzona jest dodatkowa gałąź zawierająca przypadki z odpowiadające nieznanemu wynikowi testu

21 21 Oddzielna gałąź - jeśli przy tworzeniu drzewa została utworzona Oddzielna gałąź - jeśli przy tworzeniu drzewa została utworzona Wypełnienie - według jednej z wcześniej podanych zasad Wypełnienie - według jednej z wcześniej podanych zasad Klasyfikacja probabilistyczna - uwzględnia się wszystkie możliwe wyniki testów; wybiera się kategorię najbardziej prawdopodobną Klasyfikacja probabilistyczna - uwzględnia się wszystkie możliwe wyniki testów; wybiera się kategorię najbardziej prawdopodobną Brakujące wartości w danych podczas klasyfikowania

22 22 Zalety drzew decyzyjnych n możliwość reprezentacji dowolnych hipotez dla danego zbioru atrybutów n efektywność pamięciowa i czasowa klasyfikacji n łatwe do zrozumienia dla ludzi n łatwe do wizualizacji n szybkie w budowie i użyciu

23 23 Wady drzew decyzyjnych n Testuje się jeden atrybut na raz, co powoduje niepotrzebny rozrost drzewa dla danych, gdzie poszczególne atrybuty zależą od siebie. n Niższe węzły drzewa mają b. mało danych, co może prowadzić do przypadkowych podziałów.


Pobierz ppt "1 Eksploracja danych Drążymy informację ale zbieramy wiedzę - słowa Johna Naisbetta, motto z książki Advances in knowledge discovery and data mining."

Podobne prezentacje


Reklamy Google