Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

Klasyfikacja dokumentów za pomocą sieci radialnych Paweł Rokoszny Emil Hornung Michał Ziober Tomasz Bilski.

Коpie: 1
Klasyfikacja dokumentów za pomocą sieci radialnych Paweł Rokoszny Emil Hornung Michał Ziober Tomasz Bilski.

Podobne prezentacje


Prezentacja na temat: "Klasyfikacja dokumentów za pomocą sieci radialnych Paweł Rokoszny Emil Hornung Michał Ziober Tomasz Bilski."— Zapis prezentacji:

1 Klasyfikacja dokumentów za pomocą sieci radialnych Paweł Rokoszny Emil Hornung Michał Ziober Tomasz Bilski

2 Plan prezentacji Model sieci neuronowej z neuronami radialnymi Naiwny klasyfikator bayesowski jako alternatywa Dane oraz ich preprocessing Wyniki implementacji Wnioski

3 Model sieci neuronowej z neuronami radialnymi Sieci radialne –są odmianą iteracyjnych sztucznych sieci neuronowych Zastosowania –problemy klasyfikacyjne (przedmiot naszych badań) –zadania aproksymacji funkcji wielu zmiennych –zagadnienia predykcji –wykrywanie uszkodzeń w różnego rodzaju systemach rozpoznawania wzorców (Kosko, 1988)

4 Model sieci neuronowej z neuronami radialnymi Neuron radialny (warstwa ukryta) –realizuje tzw. radialna funkcja bazowa –neuron ma za zadanie odwzorować radialną przestrzeń wokół jednego punktu lub grupy punktów (klaster) Radialna funkcja bazowa (RBF) –f i (x) = f i ( || x c || ) - jest funkcją rzeczywistą, której wartość zależy zwykle wyłącznie od odległości od określonego punktu. –wartości funkcji zmieniającą się radialnie wokół wybranego centrum c –funkcja przyjmujące wartości niezerowe tylko w otoczeniu tego centrum

5 Model sieci neuronowej z neuronami radialnymi

6 Sieć radialna –wagi przypisane jedynie do warstwy drugiej –brak wag warstwy pierwszej wynika ze sposobu działania neuronu radialnego (RBF przyjmuje jako argument wektor i nie działa na zasadzie sumatora w przeciwieństwie do sieci jednokierunkowych.)

7 Naiwny klasyfikator bayesowski Tw. Bayesa P(C) - prawdopodobieństwo wystąpienia klasy C P(X|C) - prawdopodobieństwo, że X należy do klasy C, P(X) - prawdopodobieństwo wystąpienia przykładu X

8 Naiwny klasyfikator bayesowski Założenie: Atrybuty definiujące klasę są niezależne. Powyższe założenie redukuje obliczenia Jeśli założenie jest spełnione, naiwny klasyfikator Bayesa jest optymalny Klasyfikator Bayesa jest zadziwiająco dokładny. Używany do rozpoznawania spamu

9 Naiwny klasyfikator bayesowski

10 Dane oraz ich preprocessing Źródło danych Na czym polega preprocessing Różne rodzaje reprezentacji dokumentów Róże sposoby doboru słów do słownika

11 Dane oraz ich preprocessing comp.graphics comp.os.ms-windows.misc comp.sys.ibm.pc.hardware comp.sys.mac.hardware comp.windows.x rec.autos rec.motorcycles rec.sport.baseball rec.sport.hockey sci.crypt sci.electronics sci.med sci.space misc.forsaletalk.politics.misc talk.politics.guns talk.politics.mideast talk.religion.misc alt.atheism soc.religion.christian

12 Dane oraz ich preprocessing

13 Podział tekstu na wyrazy Odrzucenie stop words Stemming – algorytm Portera Podliczenie poszczególnych rdzeni

14 Dane oraz ich preprocessing

15 Reprezentacja binarna Reprezentacja Term Frequency Reprezentacja TF-IDF TF-IDF(D,w)=TN(w)/|D| * log(N/DN(w))

16 Dane oraz ich preprocessing Częstotliwościowa CTF-IDF Mieszana

17 Wyniki implementacji Skuteczność uczenia dla różnych typów słowników i różnej reprezentacji dokumentów (dla dwóch klas dokumentów) CTF-IDFFIXEDFREQUENCY TF-IDF60%52%57% Binary79%55%85% Own65%74%60%

18 Wyniki implementacji Ogólna tendencja skuteczności w funkcji ilości klas dokumentów (n) Ogólnie sieć około dwukrotnie skuteczniejsza od losowego wyboru. Skuteczność sieci jeszcze wyższa, jeśli odizolujemy ją od reprezentacji danych wejściowych podając np. podając wektory spełniające pewne ścisłe kryteria

19 Wnioski Osiągnięta skuteczność niższa, niż oczekiwano Długi czas uczenia sieci Struktura bardziej skomplikowana, niż analogicznych niemyślących algorytmów Trudne do wychwycenia błędy Dopóki sieć nie działa, nie na pewności, co zawiodło

20 Wnioski Co poszło nie tak? (potencjalne problemy) Dokumenty zawierające w większości to samo słownictwo a tylko pojedyncze słowa świadczące o przynależności do klasy Liczność neuronów ograniczona czasem nauki Potencjalnie skomplikowany rozkład przestrzeni na klasy wymagający użycia wielu neuronów

21 DZIĘKUJEMY ZA UWAGĘ!


Pobierz ppt "Klasyfikacja dokumentów za pomocą sieci radialnych Paweł Rokoszny Emil Hornung Michał Ziober Tomasz Bilski."

Podobne prezentacje


Reklamy Google