Autor prezentacji: Mateusz Dudek

Slides:



Advertisements
Podobne prezentacje
Data Mining w e-commerce
Advertisements

SYSTEMY WYSZUKIWANIA INFORMACJI
Wykład Fizyka statystyczna. Dyfuzja.
Metody numeryczne część 1. Rozwiązywanie układów równań liniowych.
Wybrane zastosowania programowania liniowego
Uczenie ze wzmocnieniem
Inteligencja Obliczeniowa Metody oparte na podobieństwie do wzorców.
Wykład 6 Najkrótsza ścieżka w grafie z jednym źródłem
Minimalne drzewa rozpinające
dr A Kwiatkowska Instytut Informatyki
dr Przemysław Garsztka
Generowanie drzew decyzyjnych dla dużych zbiorów danych
Eksploracja danych “Drążymy informację ale zbieramy wiedzę” - słowa Johna Naisbett’a, motto z książki “Advances in knowledge discovery and data mining”
Inteligencja Obliczeniowa Indukcja reguł - modele.
Inteligencja Obliczeniowa Drzewa Decyzji.
Uczenie konkurencyjne.
Inteligencja Obliczeniowa Metody probabilistyczne.
Biblioteka do tworzenia agentów w środowisku RoboCup
TOLERANCJA EKOLOGICZNA
PROPOZYCJA PROJEKTÓW hp1d, hp2d, hp3d
Daniel Kahneman Otrzymał Nagrodę Nobla w 2002 r. za ponad ćwierćwiecze badań nad zachowaniami inwestorów i rynków finansowych.
BIOSTATYSTYKA I METODY DOKUMENTACJI
Inteligencja Obliczeniowa Klasteryzacja i uczenie bez nadzoru.
Metody Sztucznej Inteligencji w Sterowaniu 2009/2010Optymalizacja miary efektywności działania sztucznych sieci neuronowych Dr hab. inż. Kazimierz Duzinkiewicz,
Komputerowe Wspomaganie Decyzji 2010/2011 Zagadnienia wielocelowe II Dr hab. inż. Kazimierz Duzinkiewicz, Katedra Inżynierii Systemów Sterowania 1 Metody.
Metoda simpleks opracowanie na podstawie „Metody wspomagające podejmowanie decyzji w zarządzaniu” D. Witkowska, Menadżer Łódź Simpleks jest uniwersalną.
Klasyfikacja Obcinanie drzewa Naiwny klasyfikator Bayes’a kNN
Wprowadzenie Sformułowanie problemu Typy reguł asocjacyjnych
Klasyfikacja Sformułowanie problemu Metody klasyfikacji
Additive Models, Trees, and Related Methods
Sieci neuronowe jednokierunkowe wielowarstwowe
Metody Symulacyjne w Telekomunikacji (MEST) Wykład 6/7: Analiza statystyczna wyników symulacyjnych  Dr inż. Halina Tarasiuk
Systemy wspomagania decyzji
Zbiory biblioteczne W bibliotekach gromadzone są różnorodne zbiory, między innymi: książki, filmy na kasetach VHS oraz DVD, różne programy multimedialne,
Ocena przydatności algorytmu – czas działania (złożoność czasowa)
Pogoda w Bytomiu r. Obserwacje i zapis danych: Daria Kula
nieformalnie: Prawie o tym jak mierzyć zawartość cukru w cukrze...
Sieci bayesowskie Wykonali: Mateusz Kaflowski Michał Grabarczyk.
Elementy Rachunku Prawdopodobieństwa i Statystyki
Techniki eksploracji danych
strukturalizacja powtarzalnych reguł postępowania
Modelowanie i identyfikacja 2010/2011Optymalizacja miary efektywności działania sztucznych sieci neuronowych Dr hab. inż. Kazimierz Duzinkiewicz, Katedra.
XML – eXtensible Markup Language
Dana jest sieć dystrybucji wody w postaci: Ø      m- węzłów,
Początek, koniec lub przerwanie algorytmu
Autor: Joanna Barańska Promotor: dr inż. Paweł Figat Konsultant:
PODEJMOWANIE DECYZJI W WARUNKACH PEWNOŚCI (MODEL EV)
Opracowała: Edyta Guznowska – nauczyciel-bibliotekarz
Politechniki Poznańskiej
IV EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja
Podstawy analizy ryzyka
Opracowała Julia Klatt
Studium osiągalności. Rozmiar projektu (np. w punktach funkcyjny projektu w porównaniu do rozmiaru zakładanego zespołu projektowego i czasu Dostępność.
Metody pozyskiwania wiedzy
Adaptacyjne Systemy Inteligentne Maciej Bielski, s4049.
SZTUCZNA INTELIGENCJA
Podstawowe pojęcia i terminy stosowane w statystyce. Rozkłady częstości Seminarium 2.
Zarządzanie projektami
© Kazimierz Duzinkiewicz, dr hab. inż. Katedra Inżynierii Systemów Sterowania Modelowanie i podstawy identyfikacji 2015/2016 Modele neuronowe – podstawy,
WYKŁAD Teoria błędów Katedra Geodezji im. K. Weigla ul. Poznańska 2
STATYSTYKA – kurs podstawowy wykład 8 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.
25 maja 2011 roku słonecznie temperatura rano: 17oC
Struktury i algorytmy wspomagania decyzji
Podstawy teorii zachowania konsumentów
Podstawy teorii zachowania konsumentów
Podstawy teorii zachowania konsumentów
Ocenianie z zastosowaniem wagi oceny
Tytuł wystąpienia w języku prezentowania
Indukcja reguł Inżynieria wiedzy Krzysztof Regulski, WIMiIP, KISiM,
Test t-studenta dla pojedynczej próby
Zapis prezentacji:

Autor prezentacji: Mateusz Dudek Drzewa decyzyjne Autor prezentacji: Mateusz Dudek

Czym są drzewa decyzyjne? Opisać atrybut, liście, połączenia – czyli ogólnie budowa drzewa i co jest czym Właściwości drzewa Typy drzew – drzewa regresji i drzewa klasyfikujace Mogą być zbudowane ze stosunkowo malej ilosci danych Uczenie Maszynowe i Datamining – Drzewa Decyzyjne

Budowa drzew decyzyjnych A co jeżeli mamy dwa takie same przyklady ale w jeden dzien gramy a w inny nie gramy? – Nie da rady tego rodzielić. Może mamy niewystarczająca reprezentację albo bla bla bla Uczenie Maszynowe i Datamining – Drzewa Decyzyjne

Budowa drzew decyzyjnych https://www.youtube.com/watch?v=eKD5gxPPeY0 Uczenie Maszynowe i Datamining – Drzewa Decyzyjne

Budowa drzew decyzyjnych Uczenie Maszynowe i Datamining – Drzewa Decyzyjne

Budowa drzew decyzyjnych Uczenie Maszynowe i Datamining – Drzewa Decyzyjne

Budowa drzew decyzyjnych Uczenie Maszynowe i Datamining – Drzewa Decyzyjne

Budowa drzew decyzyjnych Uczenie Maszynowe i Datamining – Drzewa Decyzyjne

Budowa drzew decyzyjnych Uczenie Maszynowe i Datamining – Drzewa Decyzyjne

Budowa drzew decyzyjnych Uczenie Maszynowe i Datamining – Drzewa Decyzyjne

Budowa drzew decyzyjnych Uczenie Maszynowe i Datamining – Drzewa Decyzyjne

Budowa drzew decyzyjnych Uczenie Maszynowe i Datamining – Drzewa Decyzyjne

Budowa drzew decyzyjnych Uczenie Maszynowe i Datamining – Drzewa Decyzyjne

Budowa drzew decyzyjnych Uczenie Maszynowe i Datamining – Drzewa Decyzyjne

Budowa drzew decyzyjnych Uczenie Maszynowe i Datamining – Drzewa Decyzyjne

Budowa drzew decyzyjnych Uczenie Maszynowe i Datamining – Drzewa Decyzyjne

Entropia Entropia w ramach teorii informacji jest definiowana jako średnia ilość informacji (liczba bitów), przypadająca na znak symbolizujący zajście zdarzenia z pewnego zbioru. E – entropia zbioru danych S – zbiór danych P – proporcja danej kategorii w zbiorze względem reszty kategorii Kryterium nieczystości. Niekoniecznie musi to być entropia, jednak w praktyce to wlasnie entropia jest najczesciej wykorzystywana. Własności entropii: • jest nieujemna • jest maksymalna, gdy prawdopodobieństwa zajść zdarzeń są takie same • jest równa 0, gdy stany systemu przyjmują wartości 0 albo 1 • własność superpozycji - gdy dwa systemy są niezależne to entropia sumy systemów równa się sumie entropii. Alternatywy: GiniIndex, ClassificationError Pokaz weke! Uczenie Maszynowe i Datamining – Drzewa Decyzyjne

Przyrost informacji (information gain) Przyrost informacji może być rozumiany jako oczekiwane zmniejszenie entropii spowodowane znajomością wartości jednego z atrybutów. Jest on zdefiniowany następująco: G – przytost informacji E – entropia zbioru danych A – atrubut o znanej wartości S – zbiór danych Sv – zbiór pomniejszony o wektory z inną wartością atrybutu A Uczenie Maszynowe i Datamining – Drzewa Decyzyjne

Budowa drzew decyzyjnych Uczenie Maszynowe i Datamining – Drzewa Decyzyjne

Przykład tworzenia drzewa decyzyjnego – algorytm ID3 Decyzja (kategoria) Liczba wystąpień Tak 9 Nie 5 Uczenie Maszynowe i Datamining – Drzewa Decyzyjne

Algorytm ID3 - przyrost informacji atrybutu pogody Uczenie Maszynowe i Datamining – Drzewa Decyzyjne

Algorytm ID3 - przyrost informacji atrybutu pogody Pogoda Liczba wystąpień Tak Nie Deszcz 5 3 2 Słonecznie Pochmurnie 4 Uczenie Maszynowe i Datamining – Drzewa Decyzyjne

Algorytm ID3 - przyrost informacji atrybutu pogody Uczenie Maszynowe i Datamining – Drzewa Decyzyjne

Algorytm ID3 - przyrost informacji atrybutu temperatury Uczenie Maszynowe i Datamining – Drzewa Decyzyjne

Algorytm ID3 - przyrost informacji atrybutu temperatury Temperatura Liczba wystąpień Tak Nie Gorąco 4 2 Przyjemnie 6 Zimno 3 1 Wpakuj jeszcze przed tym pogrupowane dane jak chcesz gadac dluzej Uczenie Maszynowe i Datamining – Drzewa Decyzyjne

Algorytm ID3 - przyrost informacji atrybutu temperatury Uczenie Maszynowe i Datamining – Drzewa Decyzyjne

Algorytm ID3 - przyrost informacji atrybutu wilgotności Uczenie Maszynowe i Datamining – Drzewa Decyzyjne

Algorytm ID3 - przyrost informacji atrybutu wilgotności Liczba wystąpień Tak Nie Normalna 7 6 1 Wysoka 3 4 Uczenie Maszynowe i Datamining – Drzewa Decyzyjne

Algorytm ID3 - przyrost informacji atrybutu wilgotności Uczenie Maszynowe i Datamining – Drzewa Decyzyjne

Algorytm ID3 - przyrost informacji atrybutu wiatru Uczenie Maszynowe i Datamining – Drzewa Decyzyjne

Algorytm ID3 - przyrost informacji atrybutu wiatru Liczba wystąpień Tak Nie Słaby 8 6 2 Silny 3 Uczenie Maszynowe i Datamining – Drzewa Decyzyjne

Algorytm ID3 - przyrost informacji atrybutu wiatru Uczenie Maszynowe i Datamining – Drzewa Decyzyjne

Algorytm ID3 - przyrost informacji Uczenie Maszynowe i Datamining – Drzewa Decyzyjne

Budowa drzew decyzyjnych Uczenie Maszynowe i Datamining – Drzewa Decyzyjne

Budowa drzew decyzyjnych Uczenie Maszynowe i Datamining – Drzewa Decyzyjne

Budowa drzew decyzyjnych = Sslonecznie Decyzja (kategoria) Liczba wystąpień Tak 2 Nie 3 Uczenie Maszynowe i Datamining – Drzewa Decyzyjne

Algorytm ID3 - przyrost informacji atrybutu temperatury Temperatura Liczba wystąpień Tak Nie Gorąco 2 Przyjemnie 1 Zimno Uczenie Maszynowe i Datamining – Drzewa Decyzyjne

Algorytm ID3 - przyrost informacji atrybutu wilgotności Liczba wystąpień Tak Nie Normalna 2 Wysoka 3 Uczenie Maszynowe i Datamining – Drzewa Decyzyjne

Algorytm ID3 - przyrost informacji atrybutu wiatru Liczba wystąpień Tak Nie Słaby 3 1 2 Silny Uczenie Maszynowe i Datamining – Drzewa Decyzyjne

Tytuł slajdu Uczenie Maszynowe i Datamining – Drzewa Decyzyjne

Budowa drzew decyzyjnych Uczenie Maszynowe i Datamining – Drzewa Decyzyjne

Budowa drzew decyzyjnych Jak ci wyjdzie za malo czasu to rozpisz się dalej, obliczenia wzory etc, na razie niech to zostanie jak jest i przeskoczmy od razu do efektow koncowych Uczenie Maszynowe i Datamining – Drzewa Decyzyjne

Budowa drzew decyzyjnych I od razu wspomniec troche o wadach ID3 Uczenie Maszynowe i Datamining – Drzewa Decyzyjne

Współczynnik przyrostu informacji - Gain ratio Podchodzi pod ID3 Problem z Information gain: faworyzuje atrybuty które rozdzielaja się na duzo wezlow. Przykład: Atrybut Dzien rozbije się na 14 wezlow. Problem w tym, ze to singletony i nigdy wiecej się nie pojawia. +Dodac jakas tabelke pokazujaca wartosci gain ratio vs information gain? iv – wartosc informacyjna https://www.youtube.com/watch?v=4qyK4YeHjnM Uczenie Maszynowe i Datamining – Drzewa Decyzyjne

Information Gain i Gain Ratio - porównanie Wspomnij, ze dzien i tak by wygral gdyby zostal ujety! Trzeba uwazac jakie atrybuty sa brane pod uwage. Pomimo tego Gain Ratio jest lepszy w wybieraniu atrybutow http://www.ke.tu-darmstadt.de/lehre/archiv/ws0809/mldm/dt.pdf – strona 26 Uczenie Maszynowe i Datamining – Drzewa Decyzyjne

Gini gain Istnieje duzo alternatyw dla Gain Ratio/Information gain. Najopoularniejsza z nich jest Gini index. Uzywany W CART Można by zdefiniowac go podobnie do InformationGain, ale zawyczaj zamiast tego Gini Index jest maksymalizowany a nie minimalizowany Dokladne opisy alternatywnych wzorow decydujacych o doborze miejsca podzialu: http://www.ise.bgu.ac.il/faculty/liorr/hbchap9.pdf http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.108.7224&rep=rep1&type=pdf Gdzie: Gini(S) – gini index, miara nieczystości (zamiast entropii) Gini(S,A) – gini gain Uczenie Maszynowe i Datamining – Drzewa Decyzyjne

Maksymalizujemy: Kryterium Twoing The philosophy of Twoing is far different than that of Gini. Rather than initially pulling out a single class, Twoing first segments the classes into two groups, attempting to find groups that together add up to 50 percent of the data. Twoing then searches for a split to separate the two subgroups. The diagram below shows the best possible split the Twoing rule could find. http://www.montana.edu/spowell/documents/pdffiles/zambon_pers.pdf http://edoc.hu-berlin.de/master/timofeev-roman-2004-12-20/PDF/timofeev.pdf Uczenie Maszynowe i Datamining – Drzewa Decyzyjne

Overfitting https://www.youtube.com/watch?v=Q4NVG1IHQOU http://ktiml.mff.cuni.cz/~gregor/hypercube/hypercubes_lec7.pdf Overfitting: mogą być rozne bledy w danych (zaszumione dane) lub mogą istniec niepewnosci, np. dwa identyczne wktory uczace sa innej klasy Uczenie Maszynowe i Datamining – Drzewa Decyzyjne

Usprawnienia względem algorytmu ID3: Przycinanie drzew Algorytm C4.5 C4.5 jest algorytmem będącym rozwinięciem algorytmu ID3, tworzącym drzewa klasyfikujące. Usprawnienia względem algorytmu ID3: Przycinanie drzew Wsparcie atrybutów zarówno o wartościach ciągłych jak i dyskretnych Wsparcie wektorów uczących z nieznanymi wartościami Możliwość przypisania wag do poszczególnych atrybutów Algorytm ten także uzywa entropii oraz przyrostu informacji do wyboru atrybutow http://cse-wiki.unl.edu/wiki/index.php/Decision_Trees,_Overfitting,_and_Occam%27s_Razor Metody obcienania drzewa – kryterium (research this) Wspomnij, że są różne metody ucienaia drzew – opisz je Atrubut z nieznana wartoscia albo nie jest brany pod uwage podczas liczenai przyrostu informacji albo przypisywana jest najpopularniejsza wartość Uczenie Maszynowe i Datamining – Drzewa Decyzyjne

Metody przycinania drzew Reduced error pruning Cost-complexity pruning – minimalizujemy funkcję: Reduced error pruning One of the simplest forms of pruning is reduced error pruning. Starting at the leaves, each node is replaced with its most popular class. If the prediction accuracy is not affected then the change is kept. While somewhat naive, reduced error pruning has the advantage of simplicity and speed. Cost complexity pruning Cost complexity pruning generates a series of trees T0 . . . Tm where T0 is the initial tree and Tm is the root alone. At step i the tree is created by removing a subtree from tree i-1 and replacing it with a leaf node with value chosen as in the tree building algorithm. The subtree that is removed is chosen as follows. Define the error rate of tree T over data set S as err(T,S). The subtree that minimizes is chosen for removal. The function prune(T,t) defines the tree gotten by pruning the subtrees t from the tree T. Once the series of trees has been created, the best tree is chosen by generalized accuracy as measured by a training set or cross-validation. Uczenie Maszynowe i Datamining – Drzewa Decyzyjne

Metody przycinania drzew – rule post-pruning Pogoda-Słonecznie & Wilgotność-Wysoka → Nie Pogoda-Słonecznie & Wilgotność-Normalna → Tak Pogoda-Pochmurnie → Tak Pogoda-Deszcz & Wiatr-Słaby → Tak Pogoda-Deszcz & Wiatr-Silny → Nie Zaznaczone na czerwono fragmenty wyrazenia mogą zostac usuniete. Uczenie Maszynowe i Datamining – Drzewa Decyzyjne

Koniec Dziękuję za uwagę 

Tytuł slajdu Uczenie Maszynowe i Datamining – Drzewa Decyzyjne