Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

Inteligencja Obliczeniowa Indukcja reguł - modele. Wykład 25 Włodzisław Duch Uniwersytet Mikołaja Kopernika.

Podobne prezentacje


Prezentacja na temat: "Inteligencja Obliczeniowa Indukcja reguł - modele. Wykład 25 Włodzisław Duch Uniwersytet Mikołaja Kopernika."— Zapis prezentacji:

1 Inteligencja Obliczeniowa Indukcja reguł - modele. Wykład 25 Włodzisław Duch Uniwersytet Mikołaja Kopernika

2 Co było Reguły logiczne Drzewa decyzji Indukcja koncpcji - przestrzenie wersji

3 Co będzie Indukcja reguł AQ CN2

4 Uczenie się koncepcji Najprostsze reguły Jeśli pokrycie To konkluzja Pokrycie: najczęściej alternatywy kompleksów. Kompleks: koniunkcja selektorów. Selektor: atrybut = w (wartość); atrybut {w 1, w 2,... w n,}; atrybut = ? (uniwersalny); atrybut = (pusty). Kompleks zawierający pusty atrybut jest pusty (sprzeczny).

5 Kompleksy Kompleks uniwersalny: Kompleks atomowy: Koniunkcja selektorów s i p s i q dla kompleksów p, q: s i q = oraz s i q = ? s i q = s i q oraz s i q ? = s i q s i p s i q {w i p } {w i q } (wspólne wartości) Koniunkcja kompleksów: p q = Przecięcie zbioru kompleksów A i B: A B = {p q | p A, q B}

6 Sekwencyjne pokrywanie Pokryj jak najwięcej przykładów z pożądanej kategorii i możliwie mało z innych kategorii. Zbiór reguł R = 1.Wybierz przykład x ze zbioru treningowego T. 2.Jeśli R (x) należy do właściwej klasy wybierz następny lub zakończ jeśli nie ma więcej danych 3.Zmodyfikuj istniejące kompleksy lub utwórz nowy p, pokrywający x i inne przypadki w okolicy x. 4.Dodaj do R regułę IF p(x) THEN C = najczęstsza klasa wśród przykładów pokrywanych przez p.

7 AQ (Michalski) Popularny algorytm, rozwijany od 1969 roku, obecnie AQ-18! Strategia przeszukiwania p-ni kompleksów: 1.Pokryj dany przykład x zwany ziarnem gwiazdy (zb. kompleksów kandydujących do reguły) i maks. dużo innych ze zbioru treningowego T. 2.Zacznij od kompleksów najbardziej ogólnych, specjalizuj aż nie pozostanie żaden z niewłaściwej klasy. 3.Stosuj szukanie wiązką (szerokość m 1 jest par. programu). 4.Używaj funkcji heurystycznej by wybrać m najlepszych kompleksów (przycinanie gwiazdy). F. heurystyczna: liczba poprawnie pokrytych, preferencje dla prostszych kompleksów (mniej atrybutów) itp.

8 AQ - algorytm 1.Wybierz ziarno x z - przykład ze zbioru treningowego T nie pokryty przez żadną regułę. 2.Utwórz gwiazdę jako zbiór m najlepszych, maksymalnie ogólnych kompleksów: 2.1 Inicjalizacja S = 2.2 Powtarzaj aż S nie będzie pokrywać żadnego przykładu z x T o C(x z ) C(x). a)wybierz x n pokryty przez S dla którego C(x z ) C(x n ) b)generuj częściową gwiazdę S, pokrywającą x z ale nie x n c)S <= S S d)usuń z S kompleksy bardziej szczegółowe niż istniejące; pozostaw najlepszych m kompleksów w gwieździe.

9 AQ - ocena Przykład działania: Cichosz Podstawowy algorytm AQ: 1.Nie radzi sobie z szumem; 2.Przetrenowuje się na realnych danych (może działać dobrze na sztucznych). Liczne udoskonalenia: Przycinanie reguł: zamiana selektorów na ? AQ11 (1978) - wybór reprezentatywnych przykładów, umożliwia uczenie się dużych zbiorów danych. AQ18 - dane niekompletne i niepoprawne. Trudno znaleźć wyniki AQ dla znanych zbiorów. Brakuje naturalnej dyskretyzacji dla ciągłych danych

10 CN2 Clark, Niblett (1989) Podobny do AQ, ale kompleksy nie muszą być dokładne. Format reguł: IF (Warunki) THEN [p(C 1 ), p(C 2 ),... p(C n )] "Pokrywaj tylko przykłady jeszcze nie uwzględniane. "Efekt: hierarchiczna postać reguł. "Zacznij od kompleksów najbardziej ogólnych. "Stosuj szukanie wiązką najlepszych kompleksów. "Używaj funkcji heurystycznej by wybrać m najlepszych kompleksów.

11 CN2 - algorytm S - zbiór wszystkich kompleksów atomowych. Wybór najlepszego kompleksu: inicjalizacja S = oraz p * = Powtarzaj dopóki S S := S S "Usuń z S każdy kompleks sprzeczny i te, które są w S. "Dla każdego p S jeśli p jest statystycznie lepszy niż p * (ocena za pomocą f. heurystycznej) przyjmij p * = p "Pozostaw w S nie więcej niż m najlepszych kompleksów. "S = S Zwróć kompleks p *

12 CN2 - heurystyki CN2 - dobry kompleks, jeśli mało zróżnicowane kategorie. Minimalizacja entropii |P| - l. wszystkich pokrywanych przykładów, nie pokrytych przez wcześniejsze reguły. |P c |- l. pokrywanych przykładów z klasy c. Statystycznie znaczące różnice gdy rozkład odległości między P c i R c jest odmienny: gdzie R to przykłady jeszcze nie pokryte; w przybliżeniu jest to rozkład 2 o |C|-1 stopniach swobody.

13 CN2 - wariant nieuporządkowany Wersja CN2 (Clark, Boswell 1991) dająca reguły nieuporządkowane w postaci: Klasa C i Jeśli Warunki Uporządkowana sekwencja klas Dla każdej klasy C i szukaj najlepszej reguły pokrywającej jak najwięcej przykładów z C i jeśli znaleziona reguła (szukanie wiązką, od ogólnych do szczegółowych) jest dostatecznie dokładna usuń pokryte przykłady ze zbioru treningowego dodaj regułę do zbioru reguł dla klasy C i skończ jeśli wszystkie przypadki pokryte lub osiągnięto wymaganą dokładność zbioru reguł Do oceny stosowane są wszystkie reguły, głosowanie większościowe Jeśli żadna reguła się nie stosuje to klasa domyślna.

14 Indukcja i drzewa decyzji Pokrycia - podział na hiperprostopadłościany, ale nie w wyniku dzielenia, tylko nakrywania. AQ, CN2ID3/C4.5/CART CN2 - zbliżone rezultaty do drzew decyzji. Statlog - CN2 raz 1, raz 2, raz 3, dwa razy 5. Inne reguły: associatywne, klasą może być dowolny atrybut.

15 Koniec wykładu 25 Dobra jeszcze nie noc !


Pobierz ppt "Inteligencja Obliczeniowa Indukcja reguł - modele. Wykład 25 Włodzisław Duch Uniwersytet Mikołaja Kopernika."

Podobne prezentacje


Reklamy Google