Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

WUT TWG 2006 WEDT Klasyfikacja i grupowanie dokumentów Wykład 6 Piotr Gawrysiak 2006.

Podobne prezentacje


Prezentacja na temat: "WUT TWG 2006 WEDT Klasyfikacja i grupowanie dokumentów Wykład 6 Piotr Gawrysiak 2006."— Zapis prezentacji:

1 WUT TWG 2006 WEDT Klasyfikacja i grupowanie dokumentów Wykład 6 Piotr Gawrysiak 2006

2 WUT TWG 2006 Grupowanie (clustering)

3 WUT TWG 2006 Klasa A Klasa B Klasa C Klasyfikacja (categorization)

4 WUT TWG 2006 DB dr ds dr – dokumenty relewantne ds – dokumenty uznane przez system za relewantne DB – baza dokumentów Ocena efektywności algorytmów kategoryzacji PR – precision, R – recall, A – accuracy, FO – fallout kategoryzacja jest problemem zbliżonym do wyszukiwania informacji (IR)

5 WUT TWG 2006 Kategoryzacja binarna Wartość wskaźnika dokładności określa prawdopodobieństwo dokonania poprawnej klasyfikacji, dla losowo wybranego dokumentu ze zbioru D. Wartość wskaźnika precyzji określa prawdopodobieństwo, iż losowy dokument wybrany z dokumentów uznanych za relewantne, jest rzeczywiście dokumentem relewantnym. Zupełność odpowiada prawdopodobieństwu tego, iż dokument faktycznie relewantny, zostanie za taki uznany przez system. Zaszumienie określa z kolei prawdopodobieństwo niepoprawnego uznania za relewantny dokumentu, który faktycznie relewantny nie jest.

6 WUT TWG 2006 Rozszerzenie dla wielu klas MkMk M={M1, M2,...,Ml} Makro-uśrednianieMikro-uśrednianie PR={PR1, PR2,..., PRl}

7 WUT TWG 2006 Przykład oceny Wyniki działania czterech systemów kategoryzacji : Ocena systemów według przedstawionych wskaźników:

8 WUT TWG 2006 Zliczanie słów Zliczanie sekwencji słów Rozkłady prawdopodobieństwa wyst. słów Reprezentacje dokumentów reprezentacje unigramowe (bag-of-words) binarne częstościowe reprezentacja n-gramowe reprezentacje mieszane (Katz backoff style) reprezentacje pozycyjne w istocie są niemal tożsame z modelami języka

9 WUT TWG 2006 Niech dany będzie dokument D=(w 1, w 2,..., z 1,..., w n, z m ). Unigramową reprezentacją częstościową dokumentu D nazywamy wektor R taki, że: Reprezentacje unigramowe Niech dany będzie dokument D=(w 1, w 2,..., z 1,..., w n, z m ). Unigramową reprezentacją binarną dokumentu D nazywamy wektor R taki, że:

10 WUT TWG 2006 n-gramowe mieszane Reprezentacje bazujące na modelu Markowa I would like to make phone... Niech dany będzie dokument D=(w1, w2,..., z1,..., wo, zm). Reprezentacją n- gramową dokumentu D nazywamy macierz M taką, że: 1) kolejne wiersze x macierzy odpowiadają kolejnym wariacjom rx obejmującym n-1 słów ze słownika V 2) kolejne kolumny y macierzy odpowiadają kolejnym słowom vy ze słownika V 3) elementy macierzy przyjmują wartości:

11 WUT TWG 2006 Budowanie reprezentacji n-gramowej Przykład – bigram dla tekstu: Twas brillig, and the slithy toves Did gyre and gimble in the wabe

12 WUT TWG 2006 Reprezentacja pozycyjna

13 WUT TWG r Wystąpienia słów f(k)=2 (przed norm.) k Niech dany będzie dokument D=(w1, w2,..., z1,..., wn, zm). Reprezentacją pozycyjną dokumentu D nazywamy dwójkę (F, S) gdzie F jest zbiorem funkcji gęstości rozkładu słów fVi o następujących własnościach: 1) dziedziną funkcji fVi jest zbiór {1...n} 2) wartości funkcji fVi określone są następująco: Budowanie reprezentacji pozycyjnej

14 WUT TWG 2006 Przykłady funkcji gęstości

15 WUT TWG 2006 Powiększanie rozmiaru reprezentacji Różne metody wygładzania Ograniczanie rozmiaru reprezentacji Funkcje istotności atrybutów Wybór atrybutów Przekształcanie przestrzeni atrybutów Przetwarzanie reprezentacji dokumentów

16 WUT TWG 2006 Prawo Zipfa Po co ograniczać rozmiar reprezentacji? Hapax legomena

17 WUT TWG 2006 Ograniczanie wielkości reprezentacji Uniwersalne funkcje istotności atrybutów Funkcje istotności atrybutów – rodzina TF/IDF term frequency tfi,j – określa częstość wystąpień atrybutu wi w dokumencie dj document frequency dfi – określa liczbę dokumentów w których występuje atrybut wi N – określa liczbę wszystkich dokumentów w systemie Atrybut w jednym dokumencie Atrybut we wszystkich dokumentach Funkcje istotności atrybutów - analiza funkcji gęstości Np. wartość takiej funkcji równa 0 oznacza całkowicie równomierny rozkład wystąpień słowa, zaś dla maksymalnej koncentracji (tj. dla pojedynczego wystąpienia słowa w dokumencie) wartość równa jest 1.

18 WUT TWG 2006 Korelacja atrybut-klasa Testy statystyczne mogą być zastosowane A A A C C A B C B C B Klasa 1 i A – istotny Klasa 2 i B – istotny C – nieistotny dla separacji klas

19 WUT TWG 2006 Information Gain określa, które atrybuty są tymi, które w najlepszy sposób różnicują klasy ze zbioru trenującego Funkcje istotności atrybutów – Information Gain

20 WUT TWG 2006 Grupowanie atrybutów Przekształcanie przestrzeni atrybutów Grupowanie wg zależności atrybut-klasa Grupowanie semantyczne Bezpośrednia analiza macierzy reprezentacji (SVD) Grupowanie wg podobieństwa funkcji gęstości Przekształcanie przestrzeni atrybutów

21 WUT TWG 2006 XEROX Web Categorisation topologia metadane podobieństwo tekstów (klasyczny model dokumentów) częstość odwiedzin Przykład: Atrybuty nie muszą być wyłącznie częstościami słów/sekwencji słów Kategoryzacja dokumentów o bogatej strukturze TekstElementy medialne (obraz, dźwięk itp.) Osadzone aplikacje Kroje pisma Hiperpołączenia z innymi dokumentami Układ stron i paginacja Node Type Size Number Number Depth Similari Freq. Entry Precision Inlinks Outlinks of ty to Point Children Children Index Source Index Reference Destination Head Org. Home Page Personal Home >1k&<3k Content

22 WUT TWG 2006 Kategoryzacja oparta o formatowanie dokumentów

23 WUT TWG 2006 Przykład Słownik bunga-unga bunga unga bunga unga Bunga bunga bunga Unga unga unga Bunga unga bunga 11 UngaBunga Unigram binarny 12 UngaBunga Unigram częstościowy

24 WUT TWG 2006 Przestrzeń Unga Bunga Bunga unga bunga

25 WUT TWG 2006 Łączymy obiekty w coraz to większe grupy Kryterium łączenia – miara podobieństwa lub odległość Tree clustering Wynik - drzewo Odległość Obiekty wyjściowe

26 WUT TWG 2006 Grupowanie (hierarchiczne) Unga Bunga Potrzebne miary odległości

27 WUT TWG 2006 Miary odległości Euclidean distance distance(x,y) = { i (x i - y i ) 2 } ½ Squared Euclidean distance distance(x,y) = i (x i - y i ) 2 City-block distance distance(x,y) = i |x i - y i | Chebychev distance distance(x,y) = Maximum|x i - y i | Power distance distance(x,y) = ( i |x i - y i | p ) 1/r Percent disagreement distance(x,y) = (Number of x i y i )/ i

28 WUT TWG 2006 Pierwszy etap Unga Bunga

29 WUT TWG 2006 Reguły łączenia Single linkage (nearest neighbour) Complete linkage (furthest neighbour) Unweighted pair-group average - UPGMA Weighted pair-group average - WPGMA Unweighted pair-group centroid - UPGMC Weighted pair-group centroid - WPGMC

30 WUT TWG 2006 Drugi etap Unga Bunga

31 WUT TWG 2006 Kategoryzacja Unga Bunga Unga > 0 Unga 0 Bunga < 2 Bunga 2 Bunga 0 Bunga > 0 Unga 1 Unga > 1

32 WUT TWG 2006 Kategoryzacja nowego dokumentu Unga > 0 Unga 0 Bunga < 2 Bunga 2 Bunga 0 Bunga > 0 Unga 1 Unga > 1 Bunga unga bunga Bunga unga bunga

33 WUT TWG 2006 Zastosowania Klasyczne Analiza wiadomości (spam, routing etc.) Event tracking Internet related Web Content Mining Focused crawling, assisted browsing …


Pobierz ppt "WUT TWG 2006 WEDT Klasyfikacja i grupowanie dokumentów Wykład 6 Piotr Gawrysiak 2006."

Podobne prezentacje


Reklamy Google