Wyszukiwanie informacji W. Bartkiewicz Wykład 2b.
Klasyfikacja dokumentów Klasyfikacja dokumentów polega na przypisaniu każdemu dokumentowi d j z danego zbioru dokumentów, jednej ze skończonego zbioru ustalonych z góry kategorii (klas). –Tak więc dla danego dokumentu d j reprezentowanego przez wektor cech (x 1,..., x n ) chcemy znaleźć odwzorowanie przypisujące mu jedną ze zbioru kategorii C = {c 1,..., c m }. –Odwzorowanie f: R n (x 1,..., x n ) c m C nazywamy klasyfikatorem, albo odwzorowaniem klasyfikacyjnym. Do stworzenia odwzorowania klasyfikacyjnego niezbędne są dodatkowe informacje. Zazwyczaj przyjmują one jedną z dwu podstawowych form: –Profil (prototyp klasy, centroid), zawierający typowe, charakterystyczne cechy odróżniające daną kategorię od innych. –Zbiór przykładów dokumentów należących do poszczególnych kategorii. (Może posłużyć on bezpośrednio do budowy odwzorowania klasyfikacyjnego, lub pośrednio do wygenerowania profilu).
Klasyfikacja dokumentów MultimediaGUIGarb.Coll.Semantics ML Planning planning temporal reasoning plan language... programming semantics language proof... learning intelligence algorithm reinforcement network... garbage collection memory optimization region... planning language proof intelligence Profile: Dokument: Kategorie: (AI)(Programming)(HCI)...
Klasyfikacja dokumentów Blaster Czarna dziura Grawitacja Gwiazda Indianie Kosmos Kowboj Nadprzestrzeń Obserwacja Planeta Podróż Rewolwerowiec Teleskop Kategoria 1,81000,880000,95000,300A 0000,18004,770000,92,860C 000,3804,8202,3900,48001,430C 04,772,88000,53000,481,91000,3B 0,60,9500,700,3502, A 003,421,0600,7002,3900,601,2B 00,480,76001,2301, ,6A 0001,4100,18000,484,290,600B 00004,2101,43000,481,510,950C 02,863,420,8800,350001,43000,6B 0000,353,010, ,112,390,3C 1,2001,2300,70,481, ,6A A - SF B – Astronomia C - Western
Klasyfikacja dokumentów Filtrowanie i rekomendacja Filtrowanie informacji jest procesem zbliżonym do wyszukiwania. –W przypadku wyszukiwania mamy stały zasób informacyjny i wielu użytkowników, wyrażających swoje różne potrzeby informacyjne. –W przypadku filtrowania mamy do czynienia z jednym użytkownikiem i stałą potrzebą informacyjną, natomiast zmiennym zasobem informacji, często w postaci pewnego strumienia dokumentów. Stały charakter potrzeby informacyjnej umożliwia zastosowanie w przypadku filtrowania metod personalizacji, pozwalającej na dostosowanie procesu analizy dokumentu do potrzeb konkretnego użytkownika. –Generalnie filtrowanie może być traktowane jako spersonalizowane wyszukiwanie informacji. Typowe obszary zastosowań: –Wyszukiwanie tematyczne w internecie, w którym system wyszukiwawczy analizuje zawartość dokumentów webowych pod kątem ich dostosowania lub nie do pewnego zadanego tematu.
Klasyfikacja dokumentów Filtrowanie i rekomendacja Typowe obszary zastosowań: –Filtrowanie spamu, polegające na zaklasyfikowaniu dokumentu wiadomości jako spamu lub jako wiadomości użytecznej dla użytkownika. –Spersonalizowane czasopisma (filtrowanie wiadomości) w których system ma za zadanie zaklasyfikować daną wiadomość jako interesującą (relewantną) dla użytkownika lub nie. –Rekomendacja stron webowych, w której system ma za zadanie przeanalizować strony znajdujące się w bazie dokumentów (np. katalogu towarów) tak, aby na bazie stron przejrzanych wcześniej przez użytkownika zaproponować nowe strony, które mogą go również zainteresować. –Priorytetowanie dokumentów , zaliczenie dokumentu do kategorii ważności. W przypadku filtrowania mamy zazwyczaj do czynienia z klasyfikacją dokumentu do jednej z dwu kategorii: odpowiadający tematowi – nieodpowiedni, użyteczny – spam, relewantny – nierelewantny, itp.
Klasyfikacja dokumentów Katalogowanie Kolejnym z typowych zastosowań klasyfikacji dokumentów są katalogi tematyczne. –Klasyczna metoda porządkowania informacji pod kątem tematycznym. Tradycyjnie proces katalogowania wykonywany jest przez ludzi. –Dobre wyniki jeśli wykonują to eksperci. –Model mentalny struktury katalogu eksperta nie zawsze musi być zgodny z modelem użytkownika. –Problemy spójności przy większej grupie ekspertów. –Podejście trudne i drogie w skalowaniu. Obecnie coraz częściej skalowalność staje się problemem. –Katalogi elektroniczne mogą przechowywać informacje nawet o dziesiątkach albo setkach tysięcy ofert produktów. –Konieczność oceny dokumentu przez człowieka i zakwalifikowania go do określonej kategorii staje się często wąskim gardłem, opóźniającym dostarczenie aktualnej informacji o zawartości katalogu.
Klasyfikacja dokumentów Katalogowanie Zastosowanie systemów automatycznej klasyfikacji może być rozwiązaniem problemu skalowalności. –Klasyfikacja automatyczna pozwala również na zachowanie pewnego obiektywizmu w przydziale produktów do kategorii. Typowe aplikacje –Katalogi biblioteczne, webowe (np. Yahoo), katalogi produktów itp. –Klasyfikacja tematyczna dokumentów mailowych, wiadomości, itp. –Wizualizacja i przeglądanie struktury tematycznej bazy dokumentów. W procesie katalogowania dokument zaliczany jest zazwyczaj do jednej z kilku – kilkudziesięciu kategorii tematycznych.
Klasyfikacja dokumentów Indeksowanie i modyfikacja zapytań Kolejny typ zastosowań związany jest z ujednoznacznianiem słownictwa wykorzystywanego jednej strony do opisu dokumentu, z drugiej zaś do specyfikacji zapytania. –System klasyfikujący dokonuje klasyfikacji dokumentu na podstawie jego opisu w warstwie leksykalnej (np. słów zawartych w dokumencie) do zbioru jednoznacznych termów słownika kontrolowanego (pojęć). –Równolegle do tej samej przestrzeni jednoznacznych termów klasyfikowane są wykonywane w systemie wyszukiwawczym zapytania. –Wyszukiwanie odbywa się poprzez wyznaczenie podobieństwa zapytania do dokumentów w przestrzeni pojęć. Wymiar przestrzeni kategorii C, do których klasyfikowane są dokument i zapytanie, zazwyczaj jest w przypadku tego zadania bardzo duży, rzędu kilkuset – kilku tysięcy kategorii.
Klasyfikacja dokumentów Klasyfikacja oparta na historii wartość 11wartość 12...wartość 1nA wartość 21wartość 22...wartość 2nB... wartość t1wartość t2...wartość tnA Nowy dokument wartość 1...wartość n Analiza danych historycznych Klasyfikacja (np. A) Analiza danych historycznych powtarzana jest dla każdego nowo klasyfikowanego dokumentu
Klasyfikacja dokumentów Klasyfikacja oparta na modelu wartość 11wartość 12...wartość 1nA wartość 21wartość 22...wartość 2nB... wartość t1wartość t2...wartość tnA Nowy dokument wartość 1...wartość n Uczenie Dane historyczne analizowane są w trakcie uczenia modelu. Podczas klasyfikacji przeliczany jest tylko model Model Dane wejściowe modelu Klasyfikacja (np. A)
Klasyfikacja dokumentów Metoda najbliższego sąsiada Klasyfikatory metodą najbliższych sąsiadów są typowymi przykładami klasyfikacji opartej na historii. –Nie ma fazy uczenia modelu. Klasyfikacja opiera się na wykorzystaniu zbioru treningowego przykładów D. Dla danego dokumentu d: –Obliczamy podobieństwo d do każdego z przykładów ze zbioru treningowego D. –Przypisujemy d kategorię do której należał najbardziej podobny przykład ze zbioru D. Wykorzystanie w procesie klasyfikacji wyłącznie najbliższego egzemplarza przykładowego może powodować błędy: –Powodowane przez pojedyncze nietypowe przykłady. –Powodowane przez szum, tj. błędy w przypisaniu kategorii niektórym egzemplarzom przykładowym.
Klasyfikacja dokumentów Metoda najbliższego sąsiada Government Science Arts
Klasyfikacja dokumentów Metoda k najbliższych sąsiadów (kNN) Dla danego dokumentu d: –Obliczamy podobieństwo d do każdego z przykładów ze zbioru treningowego D. –Wyszukujemy następnie k najbardziej podobnych przykładów treningowych (stąd nazwa k najbliższych sąsiadów) i analizujemy kategorie do których one należą. –Nowemu dokumentowi d przypisujemy kategorię reprezentowaną przez większość z tych k wybranych przykładów. –Alternatywnie możemy przedstawić wynik klasyfikacji jako rozkład prawdopodobieństwa P(c|d) = i/k gdzie i jest liczbą spośród k przykładów należących co klasy c. Wartość k dobierana jest dla konkretnego przypadku. Najczęściej, aby uniknąć remisów wybiera się 3 lub 5.
Klasyfikacja dokumentów Metoda k najbliższych sąsiadów (kNN) Government Science Arts
Klasyfikacja dokumentów Metoda k najbliższych sąsiadów (kNN) Miary podobieństwa (lub odległości): –Dla ciągłych wielowymiarowych przestrzeni najprostszym wyborem jest euklidesowa miara odległości. –Dla wielowymiarowych przestrzeni binarnych najprostszym wyborem jest miara odległości Hamminga (liczba wartości cech, które się pokrywają). –W przypadku tekstów najczęściej stosowana jest miara podobieństwa cosinusów i wagi tf*idf. kNN i indeksy odwrotne. –Określenie k najbliższych sąsiadów polega na tum samym co znalezienie k dokumentów najbliższych do zapytania. –Najprościej więc wykorzystać do tego standardowe metody przetwarzania zapytania w indeksie odwrotnym dla modelu wektorowego.
Klasyfikacja dokumentów Metoda k najbliższych sąsiadów (kNN) Blaster Czarna dziura Grawitacja Gwiazda Indianie Kosmos Kowboj Nadprzestrzeń Obserwacja Planeta Podróż Rewolwerowiec Teleskop Kategoria A C C B A B A B C B C A A - SF B – Astronomia C - Western ,61 20,41 10,18 30,50 40,73 40,67 40,73 30,55 10,18 40, ,50 A - SF
Klasyfikacja dokumentów Naiwny klasyfikator Bayesowski Twierdzenie Bayesa Naiwny klasyfikator Bayesowski jest przykładem klasyfikacji opartej na modelu. W klasyfikatorach Bayesowskich tworzymy model, który dla danego wzorca x, opisującego dany dokument stara się oszacować prawdopodobieństwo Pr(C/x), przynależności tego wzorca do określonej klasy C. Bezpośrednie oszacowanie Pr(C/x) jest trudne, ponieważ x jest wektorem o wielu wymiarach. Aby oszacować rozkład prawdopodobieństwa w wielowymiarowej przestrzeni, niezbędne są olbrzymie ilości danych, pokrywające całą rozważaną przestrzeń.
Klasyfikacja dokumentów Naiwny klasyfikator Bayesowski W naiwnym klasyfikatorze Bayesowskim zakładamy, że poszczególne cechy opisujące produkt są niezależne. Dla zdarzeń niezależnych prawdopodobieństwo iloczynu zdarzeń równe jest iloczynowi ich prawdopodobieństw. Jest to założenie upraszczające. W praktyce np. różne słowa kluczowe w opisie dokumentu w dużej części będą od siebie zależne. Dlatego wyniki działania klasyfikatora naiwnego muszą być zawsze zweryfikowane empirycznie. Tym niemniej w praktycznych zastosowaniach model ten osiąga całkiem zadowalające wyniki. Jego prostota obliczeniowa i szybkość działania powoduje, że jest to jedno z najczęściej wykorzystywanych podejść do klasyfikacji dokumentów.
Klasyfikacja dokumentów Naiwny klasyfikator Bayesowski Prawdopodobieństwa występujące w tym modelu mogą być łatwo wyznaczone na podstawie arkusza danych, zawierającego informacje o słowach kluczowych w przykładowych wzorcach dokumentów: –Prawdopodobieństwo, że dla danej klasy C, słowo kluczowe x j występuje w opisie dokumentu Pr(x j =1/C) = liczba_dok(x j =1, C) / liczba_dok(C). –Prawdopodobieństwo, że dla danej klasy C, słowo kluczowe x j nie występuje w opisie dokumentu Pr(x j =0/C) = 1 – Pr(x j =1/C). –Prawdopodobieństwo Pr(C) = liczba_dok(C) / liczba dokumentów. –Ponieważ chcemy porównywać prawdopodobieństwa Pr(C/x) dla kolejnych klas C, więc Pr(x) jako takie samo dla wszystkich klas możemy pominąć. Możemy je również policzyć ze wzoru na prawdopodobieństwo całkowite:
Klasyfikacja dokumentów Naiwny klasyfikator Bayesowski Blaster Czarna dziura Grawitacja Gwiazda Indianie Kosmos Kowboj Nadprzestrzeń Obserwacja Planeta Podróż Rewolwerowiec Teleskop Kategoria A C C B A B A B C B C A A - SF B – Astronomia C - Western A B C
Klasyfikacja dokumentów Naiwny klasyfikator Bayesowski Blaster Czarna dziura Grawitacja Gwiazda Indianie Kosmos Kowboj Nadprzestrzeń Obserwacja Planeta Podróż Rewolwerowiec Teleskop Kategoria A C C B A B A B C B C A A - SF B – Astronomia C - Western 0,750,50,250,750 0,250,75000,2500,50,33A 00,50, ,250,75 0,500,750,33B 000,250,50,750,250,7500,25 0,75 0,250,33C
Klasyfikacja dokumentów Naiwny klasyfikator Bayesowski Blaster Czarna dziura Grawitacja Gwiazda Indianie Kosmos Kowboj Nadprzestrzeń Obserwacja Planeta Podróż Rewolwerowiec Teleskop 0,750,50,250,750 0,250,75000,2500,50,33A 00,50, ,250,75 0,500,750,33B 000,250,50,750,250,7500,25 0,75 0,250,33C A - SF B – Astronomia C - Western Pr(A/x)=((1-0,75)*0,5*0,25*0,75*(1-0)*0,75*(1-0,25)*0,75*(1-0)*(1-0)*0,25* (1-0)*(1-0,5))*0,33 / Pr(x) = 0,00041 / Pr(x) Pr(B/x)=((1-0)*0,5*0,75*0,75*(1-0)*0,75*(1-0)*0,25*(1-0,75)*(1-0,75)*0,5*(1-0)* (1-0,75))*0,33 / Pr(x) = 0,00014 / Pr(x) Pr(C/x)=0*0,33 / Pr(x) = 0 / Pr(x) Pr(x) = 0, , = 0,00055 Pr(A/x)=0,75 Pr(B/x)=0,25 Pr(C/x)=0
Klasyfikacja dokumentów Naiwny Bayes – praktyczne korekty Wygładzenie prawdopodobieństw –Normalnie prawdopodobieństwa liczone są jako częstości Pr(x j =1/C) = liczba_dok(x j =1, C) / liczba_dok(C). –Jednakże takie oszacowanie może być silnie obciążone dla małych prób, a zwłaszcza w przypadku termów o niskiej częstości dokumentu df. –Jeśli rzadki term t nie występuje akurat w zbiorze dokumentów treningowych, to Pr(t=1/C) = 0. Jeśli wystąpi on następnie w opisie dokumentu, to Pr(C/x) = 0 dla każdej klasy niezależnie od innych termów (bo mnożenie przez 0 daje 0). –Dlatego aby uwzględnić kwestię występowania rzadkich termów, zazwyczaj stosuje się tzw. wygładzanie Laplacea oszacowań prawdopodobieństw: Pr(x j =1/C) = (liczba_dok(x j =1, C) +1) / (liczba_dok(C)+k). gdzie k jest liczbą kategorii wartości cechy x j (dla binarnych k=2). Mnożenie prawdopodobieństw, które są małymi liczbami (między 0 i 1) może skutkować błędami zmiennopozycyjnymi. –Podstawą klasyfikacji może być również log(Pr(C/x)), co pozwala zastąpić tę operację sumowaniem logarytmów prawdopodobieństw log(Pr(x j =1/C)).
Klasyfikacja dokumentów Inne typy modeli klasyfikacyjnych Klasyfikatory logiczne (drzewa (reguły) decyzyjne) –Wewnętrzne węzły odpowiadają poszczególnym termom. –Gałęzie odpowiadają różnym wartościom wag termów (zazwyczaj binarne). –Liście odpowiadają kategoriom. –Uzyskiwane zazwyczaj na drodze uczenia indukcyjnego drzew (np. algorytm C4.5). Sieci neuronowe. –Liniowe sieci perceptronowe. –Warstwowe perceptrony (MLP). –Sieci o bazie radialnej (RBF). –Support Vector Machines (SVM).