IV EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja

Slides:



Advertisements
Podobne prezentacje
Data Mining w e-commerce
Advertisements

PODZIAŁ STATYSTYKI STATYSTYKA STATYSTYKA MATEMATYCZNA STATYSTYKA
Algorytmy sortowania i porządkowania
Analiza współzależności zjawisk
Algorytmy – c.d. złożoność algorytmów struktury danych
Algorytmy – c.d. struktury danych złożoność algorytmów
Inteligencja Obliczeniowa Metody oparte na podobieństwie do wzorców.
Generowanie drzew decyzyjnych dla dużych zbiorów danych
SZTUCZNA INTELIGENCJA ARTIFICIAL INTELLIGENCE
Eksploracja danych “Drążymy informację ale zbieramy wiedzę” - słowa Johna Naisbett’a, motto z książki “Advances in knowledge discovery and data mining”
Inteligencja Obliczeniowa Drzewa Decyzji.
Badania operacyjne. Wykład 1
Ciągi de Bruijna generowanie, własności
Programowanie liniowe całkowitoliczbowe
Instrumenty o charakterze własnościowym Akcje. Literatura Jajuga K., Jajuga T. Inwestycje Jajuga K., Jajuga T. Inwestycje Luenberger D.G. Teoria inwestycji.
pseudokody algorytmów
WYKŁAD 7. Spójność i rozpięte drzewa
Biblioteka do tworzenia agentów w środowisku RoboCup
Algorytm Rochio’a.
Dynamiczne struktury danych 1
Paweł Kramarski Seminarium Dyplomowe Magisterskie 2
Eksperymentalna ocena jakości rozpoznawania
Klasyfikacja Obcinanie drzewa Naiwny klasyfikator Bayes’a kNN
Wprowadzenie Sformułowanie problemu Typy reguł asocjacyjnych
Klasyfikacja Sformułowanie problemu Metody klasyfikacji
Semantyki programów współbieżnych " Determinizm programów sekwencyjnych, " Nie-determinizm programów współbieżnych, " prawdziwa równoległość vs.przeploty.
Additive Models, Trees, and Related Methods
WYKŁAD 7. Spójność i rozpięte drzewa Graf jest spójny, gdy dla każdego podziału V na dwa rozłączne podzbiory A i B istnieje krawędź z A do B. Definicja.
Model CAPM W celu prawidłowego wyjaśnienia zjawisk zachodzących na rynku kapitałowym, należy uwzględnić wzajemne oddziaływania na siebie inwestorów. W.
Dane do obliczeń.
Elementy Rachunku Prawdopodobieństwa i Statystyki
Ekonometria. Co wynika z podejścia stochastycznego?
ETO w Inżynierii Chemicznej MathCAD wykład 4.. Analiza danych Aproksymacja danych.
Wykład 25 Regulatory dyskretne
Instrukcja USOSweb Wersja: Opracował: Sebastian Sieńko Moduł sprawdzianów.
formalnie: Uczenie nienadzorowane
nieformalnie: Prawie o tym jak mierzyć zawartość cukru w cukrze...
Techniki eksploracji danych
ALGORYTMY ROZWIĄZYWANIA GIER C.D.
Inicjalizacja i sprzątanie
XML – eXtensible Markup Language
II EKSPLORACJA DANYCH Przygotowanie danych: rodzaje danych
III EKSPLORACJA DANYCH
VI EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja
OKNO Eksploracja danych: kolokwium I VIII EKSPLORACJA DANYCH 1234 Spójrz gdzie siedzisz. Zadania oznaczone tym numerem są przeznaczone dla Ciebie. DRZWI.
VII EKSPLORACJA DANYCH
Politechniki Poznańskiej
METODY PODEJMOWANIA DECYZJI
Algorytmy i Struktury Danych
Programowanie strukturalne i obiektowe C++
Model obiektowy bazy danych
Metody pozyskiwania wiedzy
Podstawy zarządzania projektami Karta projektu
Metody Matematyczne w Inżynierii Chemicznej Podstawy obliczeń statystycznych.
OKNO Eksploracja danych: kolokwium I VIII EKSPLORACJA DANYCH 1234 Spójrz gdzie siedzisz. Zadania oznaczone tym numerem są przeznaczone dla Ciebie. DRZWI.
Rekurencje Rekurencja jest równaniem lub nierównością, opisującą funkcję w zależności od jej wartości dla danych wejściowych o mniejszych rozmiarach. Na.
Autor prezentacji: Mateusz Dudek
Systemy wspomagające dowodzenie twierdzeń
SZTUCZNA INTELIGENCJA
Zarządzanie projektami
Człowiek – najlepsza inwestycja
Projektowanie kwestionariusza
STATYSTYKA – kurs podstawowy wykład 8 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.
Indeksy drzewiaste. ISAM ISAM - INDEXED SEQUENTIAL ACCESS METHOD Problem: –Dany jest plik uporządkowany – w jaki sposób zrealizować efektywnie zapytanie.
Zbiory rozłączne.
Co do tej pory robiliśmy:
Jednorównaniowy model regresji liniowej
Wskaźniki Elżbieta Labocha.
Metody Eksploracji Danych
Indukcja reguł Inżynieria wiedzy Krzysztof Regulski, WIMiIP, KISiM,
Zapis prezentacji:

IV EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja Klasyfikacja polega na przewidywaniu wartości jednej zmiennej na podstawie znanych wartości innych zmiennych. Przy zastosowaniu klasyfikacji zmienna, która będzie przewidywana jest kategoryczna.

IV EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja R R - korzeń N N N - węzeł N L L - liść L L L L

IV EKSPLORACJA DANYCH Stosowanie algorytmu drzew decyzyjnych Algorytmy drzew decyzyjnych należą do uczenia nadzorowanego i, jako takie, wymagają wstępnie sklasyfikowanej zmiennej celu. Należy dostarczyć zbiór uczący zawierający wartości zmiennej celu. Zbiór uczący powinien być bogaty i różnorodny, zapewniający zdrową reprezentatywną grupę typów rekordów, których klasyfikacja może być potrzebna w przyszłości. Drzewa decyzyjne uczą się poprzez przykład i jeżeli systematycznie brakuje przykładów dla podzbioru możliwego do określenia, to klasyfikacja i przewidywanie dla tego podzbioru będą problematyczne lub niemożliwe Klasy zmiennej celu muszą być dyskretne, to znaczy, nie można zastosować analizy drzew decyzyjnych do ciągłej zmiennej celu. Raczej zmienna celu musi przyjmować wartości, które są jasno wyznaczone jako przynależne do danej klasy lub nie.

IV EKSPLORACJA DANYCH Jak drzewa decyzyjne wybierają atrybut dzielący: Drzewa decyzyjne starają się stworzyć zbiór liści, które są najczystsze, tzn. takie które zawierają jak najwięcej rekordów należących do tej samej klasy. W ten sposób drzewa decyzyjne zapewniają przypisanie do klasy z największą miarą ufności. Metod określania jednorodności będącej miarą czystości liści jest wiele, a dwie najpopularniejsze to: Algorytm drzew klasyfikacyjnych i regresyjnych CART Algorytm C4.5

IV EKSPLORACJA DANYCH Φ(s│t) = 2 PLPP (s│t) Algorytm drzew klasyfikacyjnych CART Φ(s│t) = 2 PLPP (s│t) gdzie: (s│t) = Σ │P(j│tL) – P(j│tP) │

IV EKSPLORACJA DANYCH Φ(s│t) = 2 PLPP (s│t) PL = PP = Algorytm drzew klasyfikacyjnych CART Φ(s│t) = 2 PLPP (s│t) liczba rekordów w tL PL = liczba rekordów w zbiorze uczącym liczba rekordów w tP PP = liczba rekordów w zbiorze uczącym

IV EKSPLORACJA DANYCH (s│t) = Σ │P(j│tL) – P(j│tP) │ Algorytm drzew klasyfikacyjnych CART (s│t) = Σ │P(j│tL) – P(j│tP) │ liczba rekordów należących do klasy j w tL P(j│tL) = liczba rekordów w t liczba rekordów należących do klasy j w tP P(j│tP) = liczba rekordów w t

IV EKSPLORACJA DANYCH Algorytm drzew klasyfikacyjnych CART

IV EKSPLORACJA DANYCH Algorytm drzew klasyfikacyjnych CART

IV EKSPLORACJA DANYCH Algorytm drzew klasyfikacyjnych CART

IV EKSPLORACJA DANYCH Algorytm drzew klasyfikacyjnych CART

IV EKSPLORACJA DANYCH Algorytm C 4.5 Algorytmy C4.5 nie jest ograniczony do binarnych podziałów. Podczas, gdy CART tworzy drzewo binarne, C4.5 tworzy drzewo o bardziej zróżnicowanym kształcie. Dla zmiennych jakościowych algorytm C4.5 z definicji tworzy osobne gałęzie dla każdej wartości atrybutu jakościowego. Może to powodować nadmierne rozgałęzienie. Metoda mierzenia jednorodności w algorytmie C4.5 jest zupełnie inna i używa pojęcia zysk informacji lub redukcja entropii.

H(X) = –Σ pj log2(pj) IV EKSPLORACJA DANYCH Algorytm C 4.5 Dla zmiennej X przyjmującej k możliwych wartości z prawdopodobieństwem p odpowiednio p1, p2, …pi, można zdefiniować wielkość nazwaną entropią X określoną wzorem: H(X) = –Σ pj log2(pj)

HS(T) = Σ Pi HS(Ti) IV EKSPLORACJA DANYCH Algorytm C 4.5 Dla założenia, że możliwy jest podział S, dzielący zbiór T na kilka podzbiorów T1, T2, … Tk, wówczas ważona suma entropii dla pojedynczych podzbiorów określona jest wzorem: HS(T) = Σ Pi HS(Ti) i=1 k

IV EKSPLORACJA DANYCH H(X) = –Σ pj log2(pj) HS(T) = Σ Pi HS(Ti) i=1 k

IV EKSPLORACJA DANYCH Zalety drzew decyzyjnych szybka klasyfikacja zrozumiały proces decyzyjny możliwość aproksymacji złożonych powierzchni decyzyjnych możliwość stosowania cech różnego typu efektywne z punktu widzenia przechowywania w pamięci

IV EKSPLORACJA DANYCH Klasyfikacja: drzewa decyzyjne Drzewa decyzyjne – zdolność do interpretacji Reguły decyzyjne mogą zostać zbudowane z drzewa decyzyjnego po prostu przez przechodzenie dowolna ścieżką z korzenia do liścia. Pełny zbiór reguł decyzyjnych stworzonych przez drzewo jest równoważny (dla celów klasyfikacji) z drzewem decyzyjnym Wsparcie reguł decyzyjnych odnosi się do procentu rekordów w zbiorze danych, które są przypisane do danego liścia Ufność reguł wskazuje na procent rekordów w liściu, dla których reguła jest prawdziwa.

IV EKSPLORACJA DANYCH Wady drzew decyzyjnych im więcej klas oraz im bardziej się one nakładają, tym większe drzewo decyzyjne trudno zapewnić jednocześnie wysoką jakość klasyfikacji i małe rozmiary drzewa w węzłach testowany jeden atrybut