WEDT Klasyfikacja i grupowanie dokumentów

Slides:



Advertisements
Podobne prezentacje
Leszek Smolarek Akademia Morska w Gdyni 2005/2006
Advertisements

Excel Narzędzia do analizy regresji
Minimalizacja formuł Boolowskich
Search Results Clustering
WUT TWG 2005 WEDT Wyszukiwanie informacji Wykład 9 Piotr Gawrysiak 2006.
WEDT Rachunek prawdopodobieństwa, teoria informacji, lingwistyka
Wybrane zastosowania programowania liniowego
DYSKRETYZACJA SYGNAŁU
Metody identyfikacji i lokalizacji sekwencji kodujących w genomie
BUDOWA MODELU EKONOMETRYCZNEGO
Badania operacyjne. Wykład 2
Sztuczne sieci neuronowe
KNW- Wykład 8 Wnioskowanie rozmyte.
Elementy Modelowania Matematycznego
CLUSTERING Metody grupowania danych Plan wykładu Wprowadzenie Dziedziny zastosowania Co to jest problem klastrowania? Problem wyszukiwania optymalnych.
Statystyka w doświadczalnictwie
Klasyfikacja dokumentów tekstowych w oparciu o blogi
Algorytm Rochio’a.
Wprowadzenie do budowy usług informacyjnych
Niepewności przypadkowe
Wyszukiwanie w repozytoriach tekstowych w języku polskim
Klasyfikacja Obcinanie drzewa Naiwny klasyfikator Bayes’a kNN
Wprowadzenie Sformułowanie problemu Typy reguł asocjacyjnych
Odkrywanie wzorców sekwencji
Grupowanie Wprowadzanie Definicja problemu
Ukryte indeksowanie semantyczne SVD Struktury danych
Pobieranie próby Populacja generalna: zbiór wyników wszystkich możliwych doświadczeń określonego typu. Próba n-wymiarowa: zbiór n wyników doświadczeń.
Klasyfikacja dokumentów za pomocą sieci radialnych Paweł Rokoszny Emil Hornung Michał Ziober Tomasz Bilski.
Klasyfikacja dokumentów za pomocą sieci radialnych
Klasyfikacja dokumentów za pomocą sieci radialnych Paweł Rokoszny Emil Hornung Michał Ziober Tomasz Bilski.
Dane oraz ich preprocessing
Metody Symulacyjne w Telekomunikacji (MEST) Wykład 4: Generowanie zdarzeń  Dr inż. Halina Tarasiuk p. 337, tnt.tele.pw.edu.pl.
Metody Symulacyjne w Telekomunikacji (MEST) Wykład 6/7: Analiza statystyczna wyników symulacyjnych  Dr inż. Halina Tarasiuk
Średnie i miary zmienności
Bibliotekarz – odkrywca. Agenda Proces tworzenia informacji Indeksy wyszukiwawcze Budowa rekordu w Promaxie Zapytania.
Reprezentacje - zmiennoprzecinkowa
Fraktale i chaos w naukach o Ziemi
O relacjach i algorytmach
opracowanie: Agata Idczak
Elementy Rachunku Prawdopodobieństwa i Statystyki
Dodatkowe własności funkcji B-sklejanych zawężenie f do K Rozważmy funkcjeIch zawężenia do dowolnego przedziałutworzą układ wielomianów. Dla i=k ten układ.
Zadanie programowania liniowego PL dla ograniczeń mniejszościowych
Zadanie programowania liniowego PL dla ograniczeń mniejszościowych
Prognozowanie z wykorzystaniem modeli ekonometrycznych
XML – eXtensible Markup Language
II. Matematyczne podstawy MK
Kilka wybranych uzupelnień
Przekształcenia liniowe
III EKSPLORACJA DANYCH
Projektowanie relacyjnych baz danych – postacie normalne
Seminarium licencjackie Beata Kapuścińska
Grafika i komunikacja człowieka z komputerem
Ekonometryczne modele nieliniowe
Grafika Komputerowa i wizualizacja
Zagadnienia AI wykład 2.
Metody Matematyczne w Inżynierii Chemicznej Podstawy obliczeń statystycznych.
„Fraktal jest sposobem widzenia nieskończoności okiem duszy”.
Automatyczna interpretacja pytań i udzielanie odpowiedzi (Question & Answering)
Przenoszenie błędów (rachunek błędów) Niech x=(x 1,x 2,...,x n ) będzie n-wymiarową zmienną losową złożoną z niezależnych składników o rozkładach normalnych.
Warstwowe sieci jednokierunkowe – perceptrony wielowarstwowe
Gramatyki Lindenmayera
1 Zespołu statystyczny Zespołu statystyczny - oznacza zbiór bardzo dużej liczby kopii rozważanego układu fizycznego, odpowiadających temu samemu makrostanowi.
STATYSTYKA – kurs podstawowy wykład 8 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.
Niepewności pomiarów. Błąd pomiaru - różnica między wynikiem pomiaru a wartością mierzonej wielkości fizycznej. Bywa też nazywany błędem bezwzględnym.
Struktury i algorytmy wspomagania decyzji
Metody eksploracji tekstu
Systemy neuronowo – rozmyte
Jednorównaniowy model regresji liniowej
Metody Eksploracji Danych
Podstawy teorii spinu ½
Zapis prezentacji:

WEDT Klasyfikacja i grupowanie dokumentów Wykład 6 Piotr Gawrysiak pgawrysiak@supermedia.pl 2006

Grupowanie (clustering)

Klasyfikacja (categorization) Klasa A Klasa B Klasa C

PR – precision, R – recall, A – accuracy, FO – fallout Ocena efektywności algorytmów kategoryzacji kategoryzacja jest problemem zbliżonym do wyszukiwania informacji (IR) DB dr ds dr – dokumenty relewantne ds – dokumenty uznane przez system za relewantne DB – baza dokumentów PR – precision, R – recall, A – accuracy, FO – fallout

Kategoryzacja binarna   Wartość wskaźnika dokładności określa prawdopodobieństwo dokonania poprawnej klasyfikacji, dla losowo wybranego dokumentu ze zbioru D. Wartość wskaźnika precyzji określa prawdopodobieństwo, iż losowy dokument wybrany z dokumentów uznanych za relewantne, jest rzeczywiście dokumentem relewantnym. Zupełność odpowiada prawdopodobieństwu tego, iż dokument faktycznie relewantny, zostanie za taki uznany przez system. Zaszumienie określa z kolei prawdopodobieństwo niepoprawnego uznania za relewantny dokumentu, który faktycznie relewantny nie jest. Tablica kontyngencji R0 – nierelewantne R1 – relewantne F – empiryczna G - estymowana  

Rozszerzenie dla wielu klas M={M1, M2,...,Ml} Mk Makro-uśrednianie Mikro-uśrednianie PR={PR1, PR2, ..., PRl}

Przykład oceny Wyniki działania czterech systemów kategoryzacji: Ocena systemów według przedstawionych wskaźników:

Reprezentacje dokumentów w istocie są niemal tożsame z modelami języka Zliczanie słów reprezentacje unigramowe (bag-of-words) binarne częstościowe reprezentacja n-gramowe reprezentacje mieszane (Katz backoff style) reprezentacje pozycyjne Zliczanie sekwencji słów Rozkłady prawdopodobieństwa wyst. słów

Reprezentacje unigramowe Niech dany będzie dokument D=(w1, w2, ..., z1, ..., wn, zm). Unigramową reprezentacją binarną dokumentu D nazywamy wektor R taki, że: Niech dany będzie dokument D=(w1, w2, ..., z1, ..., wn, zm). Unigramową reprezentacją częstościową dokumentu D nazywamy wektor R taki, że:

Reprezentacje bazujące na modelu Markowa n-gramowe mieszane „I would like to make phone...” Niech dany będzie dokument D=(w1, w2, ..., z1, ..., wo, zm). Reprezentacją n-gramową dokumentu D nazywamy macierz M taką, że:   1) kolejne wiersze x macierzy odpowiadają kolejnym wariacjom rx obejmującym n-1 słów ze słownika V 2) kolejne kolumny y macierzy odpowiadają kolejnym słowom vy ze słownika V 3) elementy macierzy przyjmują wartości:

Budowanie reprezentacji n-gramowej Przykład – bigram dla tekstu: Twas brillig, and the slithy toves Did gyre and gimble in the wabe

Reprezentacja pozycyjna

Budowanie reprezentacji pozycyjnej Niech dany będzie dokument D=(w1, w2, ..., z1, ..., wn, zm). Reprezentacją pozycyjną dokumentu D nazywamy dwójkę (F, S) gdzie F jest zbiorem funkcji gęstości rozkładu słów fVi o następujących własnościach: 1) dziedziną funkcji fVi jest zbiór {1...n} 2) wartości funkcji fVi określone są następująco: 2r Wystąpienia słów f(k)=2 (przed norm.) k

Przykłady funkcji gęstości

Przetwarzanie reprezentacji dokumentów Powiększanie rozmiaru reprezentacji Różne metody wygładzania Ograniczanie rozmiaru reprezentacji Funkcje istotności atrybutów Wybór atrybutów Przekształcanie przestrzeni atrybutów

Po co ograniczać rozmiar reprezentacji? Prawo Zipfa „Hapax legomena”

Ograniczanie wielkości reprezentacji „Uniwersalne” funkcje istotności atrybutów Funkcje istotności atrybutów – rodzina TF/IDF term frequency tfi,j – określa częstość wystąpień atrybutu wi w dokumencie dj document frequency dfi – określa liczbę dokumentów w których występuje atrybut wi N – określa liczbę wszystkich dokumentów w systemie Atrybut w jednym dokumencie Atrybut we wszystkich dokumentach Funkcje istotności atrybutów - analiza funkcji gęstości Np. wartość takiej funkcji równa 0 oznacza całkowicie równomierny rozkład wystąpień słowa, zaś dla maksymalnej koncentracji (tj. dla pojedynczego wystąpienia słowa w dokumencie) wartość równa jest 1.

Korelacja atrybut-klasa Testy statystyczne mogą być zastosowane A A A C C A B C B C B Klasa 1 i A – istotny Klasa 2 i B – istotny C – nieistotny dla separacji klas

Funkcje istotności atrybutów – Information Gain Information Gain określa, które atrybuty są tymi, które w najlepszy sposób różnicują klasy ze zbioru trenującego

Przekształcanie przestrzeni atrybutów Grupowanie atrybutów Przekształcanie przestrzeni atrybutów Grupowanie wg zależności atrybut-klasa Grupowanie semantyczne Bezpośrednia analiza macierzy reprezentacji (SVD) Grupowanie wg podobieństwa funkcji gęstości

Kategoryzacja dokumentów o bogatej strukturze Atrybuty nie muszą być wyłącznie częstościami słów/sekwencji słów XEROX Web Categorisation topologia metadane podobieństwo tekstów (klasyczny model dokumentów) częstość odwiedzin Przykład: Tekst Elementy medialne (obraz, dźwięk itp.) Osadzone aplikacje Kroje pisma Hiperpołączenia z innymi dokumentami Układ stron i paginacja Node Type Size Number Number Depth Similari Freq. Entry Precision Inlinks Outlinks of ty to Point Children Children Index - + 0.67 Source Index - + + 0.53 Reference + - - - 0.64 Destination + - - - - 0.53 Head + + + + 0.70 Org. Home Page + + + + 0.30 Personal Home >1k&<3k - - 0.51 Content + - - 0.99

Kategoryzacja oparta o formatowanie dokumentów

Przykład Słownik bunga-unga bunga unga 1 Unga Bunga Unigram binarny Bunga bunga bunga Unga unga unga Bunga unga bunga 1 2 Unga Bunga Unigram częstościowy

Przestrzeń Unga Bunga 1 2 Bunga unga bunga

Tree clustering Łączymy obiekty w coraz to większe grupy Kryterium łączenia – miara podobieństwa lub odległość Wynik - drzewo Odległość Obiekty wyjściowe

Grupowanie (hierarchiczne) Unga Bunga 1 2 Potrzebne miary odległości

Miary odległości Euclidean distance distance(x,y) = {i (xi - yi)2 }½ Squared Euclidean distance distance(x,y) = i (xi - yi)2 City-block distance distance(x,y) =  i |xi - yi| Chebychev distance distance(x,y) = Maximum|xi - yi| Power distance distance(x,y) = (i |xi - yi|p)1/r Percent disagreement distance(x,y) = (Number of xi  yi)/ i

Pierwszy etap Unga 2 1 Bunga 1 2

Reguły łączenia Single linkage (nearest neighbour) Complete linkage (furthest neighbour) Unweighted pair-group average - UPGMA Weighted pair-group average - WPGMA Unweighted pair-group centroid - UPGMC Weighted pair-group centroid - WPGMC

Drugi etap Unga Bunga 1 2

Kategoryzacja Unga Bunga 1 2 Unga > 0 Unga  0 Bunga < 2 1 2 Bunga < 2 Bunga  2 Bunga  0 Bunga > 0 Unga  1 Unga > 1

Kategoryzacja nowego dokumentu Unga > 0 Unga  0 Bunga < 2 Bunga  2 Bunga  0 Bunga > 0 Unga  1 Unga > 1 Bunga unga bunga Bunga unga bunga

Zastosowania Klasyczne Analiza wiadomości email (spam, routing etc.) Event tracking Internet related Web Content Mining Focused crawling, assisted browsing …