Wprowadzenie do budowy usług informacyjnych

Wprowadzenie do budowy usług informacyjnych
Uniwersytet Łódzki Katedra Informatyki W. Bartkiewicz Wprowadzenie do budowy usług informacyjnych Wykład 5. Klasyfikacja dokumentów tekstowych Filtrowanie, rekomendacja i kategoryzacja

Klasyfikacja dokumentów
Katedra Informatyki Klasyfikacja dokumentów polega na przypisaniu każdemu dokumentowi dj z danego zbioru dokumentów, jednej ze skończonego zbioru ustalonych z góry kategorii (klas). Tak więc dla danego dokumentu dj reprezentowanego przez wektor cech (x1, ..., xn) chcemy znaleźć odwzorowanie przypisujące mu jedną ze zbioru kategorii C = {c1, ..., cm}. Odwzorowanie f: Rn  (x1, ..., xn)  cm C nazywamy klasyfikatorem, albo odwzorowaniem klasyfikacyjnym. Do stworzenia odwzorowania klasyfikacyjnego niezbędne są dodatkowe informacje. Zazwyczaj przyjmują one jedną z dwu podstawowych form: Profil (prototyp klasy, centroid), zawierający typowe, charakterystyczne cechy odróżniające daną kategorię od innych. Zbiór przykładów dokumentów należących do poszczególnych kategorii. (Może posłużyć on bezpośrednio do budowy odwzorowania klasyfikacyjnego, lub pośrednio do wygenerowania profilu).

Katedra Informatyki Multimedia GUI Garb.Coll. Semantics ML Planning planning temporal reasoning plan language... programming semantics language proof... learning intelligence algorithm reinforcement network... garbage collection memory optimization region... “planning proof intelligence” Profile: Dokument: Kategorie: (AI) (Programming) (HCI) ...

Katedra Informatyki Blaster Czarna dziura Grawitacja Gwiazda Indianie Kosmos Kowboj Nadprzestrzeń Obserwacja Planeta Podróż Rewolwerowiec Teleskop Kategoria 1,81 0,88 0,95 0,3 A 0,18 4,77 0,9 2,86 C 0,38 4,82 2,39 0,48 1,43 2,88 0,53 1,91 B 0,6 0,7 0,35 3,42 1,06 1,2 0,76 1,23 1,41 4,29 4,21 1,51 3,01 2,11 A - SF B – Astronomia C - Western

Klasyfikacja dokumentów Filtrowanie i rekomendacja
Katedra Informatyki Filtrowanie informacji jest procesem zbliżonym do wyszukiwania. W przypadku wyszukiwania mamy stały zasób informacyjny i wielu użytkowników, wyrażających swoje różne potrzeby informacyjne. W przypadku filtrowania mamy do czynienia z jednym użytkownikiem i stałą potrzebą informacyjną, natomiast zmiennym zasobem informacji, często w postaci pewnego strumienia dokumentów. Stały charakter potrzeby informacyjnej umożliwia zastosowanie w przypadku filtrowania metod personalizacji, pozwalającej na dostosowanie procesu analizy dokumentu do potrzeb konkretnego użytkownika. Generalnie filtrowanie może być traktowane jako spersonalizowane wyszukiwanie informacji. Typowe obszary zastosowań: Wyszukiwanie tematyczne w internecie, w którym system wyszukiwawczy analizuje zawartość dokumentów webowych pod kątem ich dostosowania lub nie do pewnego zadanego tematu.

Klasyfikacja dokumentów Filtrowanie i rekomendacja
Katedra Informatyki Typowe obszary zastosowań: Filtrowanie spamu, polegające na zaklasyfikowaniu dokumentu wiadomości jako spamu lub jako wiadomości użytecznej dla użytkownika. Spersonalizowane czasopisma (filtrowanie wiadomości) w których system ma za zadanie zaklasyfikować daną wiadomość jako interesującą (relewantną) dla użytkownika lub nie. Rekomendacja stron webowych, w której system ma za zadanie przeanalizować strony znajdujące się w bazie dokumentów (np. katalogu towarów) tak, aby na bazie stron przejrzanych wcześniej przez użytkownika zaproponować nowe strony, które mogą go również zainteresować. Priorytetowanie dokumentów , zaliczenie dokumentu do kategorii ważności. W przypadku filtrowania mamy zazwyczaj do czynienia z klasyfikacją dokumentu do jednej z dwu kategorii: odpowiadający tematowi – nieodpowiedni, użyteczny – spam, relewantny – nierelewantny, itp.

Klasyfikacja dokumentów Katalogowanie
Katedra Informatyki Kolejnym z typowych zastosowań klasyfikacji dokumentów są katalogi tematyczne. Klasyczna metoda porządkowania informacji pod kątem tematycznym. Tradycyjnie proces katalogowania wykonywany jest przez ludzi. Dobre wyniki jeśli wykonują to eksperci. Model mentalny struktury katalogu eksperta nie zawsze musi być zgodny z modelem użytkownika. Problemy spójności przy większej grupie ekspertów. Podejście trudne i drogie w skalowaniu. Obecnie coraz częściej skalowalność staje się problemem. Katalogi elektroniczne mogą przechowywać informacje nawet o dziesiątkach albo setkach tysięcy ofert produktów. Konieczność oceny dokumentu przez człowieka i zakwalifikowania go do określonej kategorii staje się często wąskim gardłem, opóźniającym dostarczenie aktualnej informacji o zawartości katalogu.

Klasyfikacja dokumentów Katalogowanie
Katedra Informatyki Zastosowanie systemów automatycznej klasyfikacji może być rozwiązaniem problemu skalowalności. Klasyfikacja automatyczna pozwala również na zachowanie pewnego obiektywizmu w przydziale produktów do kategorii. Typowe aplikacje Katalogi biblioteczne, webowe (np. Yahoo), katalogi produktów itp. Klasyfikacja tematyczna dokumentów mailowych, wiadomości, itp. Wizualizacja i przeglądanie struktury tematycznej bazy dokumentów. W procesie katalogowania dokument zaliczany jest zazwyczaj do jednej z kilku – kilkudziesięciu kategorii tematycznych.

Klasyfikacja dokumentów Indeksowanie i modyfikacja zapytań
Katedra Informatyki Kolejny typ zastosowań związany jest z ujednoznacznianiem słownictwa wykorzystywanego jednej strony do opisu dokumentu, z drugiej zaś do specyfikacji zapytania. System klasyfikujący dokonuje klasyfikacji dokumentu na podstawie jego opisu w warstwie leksykalnej (np. słów zawartych w dokumencie) do zbioru jednoznacznych termów słownika kontrolowanego (pojęć). Równolegle do tej samej przestrzeni jednoznacznych termów klasyfikowane są wykonywane w systemie wyszukiwawczym zapytania. Wyszukiwanie odbywa się poprzez wyznaczenie podobieństwa zapytania do dokumentów w przestrzeni pojęć. Wymiar przestrzeni kategorii C, do których klasyfikowane są dokument i zapytanie, zazwyczaj jest w przypadku tego zadania bardzo duży, rzędu kilkuset – kilku tysięcy kategorii.

Klasyfikacja dokumentów Klasyfikacja oparta na historii
Katedra Informatyki Klasyfikacja dokumentów Klasyfikacja oparta na historii Analiza danych historycznych powtarzana jest dla każdego nowo klasyfikowanego dokumentu wartość 11 wartość 12 ... wartość 1n A wartość 21 wartość 22 wartość 2n B wartość t1 wartość t2 wartość tn Analiza danych historycznych Klasyfikacja (np. A) Nowy dokument wartość 1 ... wartość n

Klasyfikacja dokumentów Klasyfikacja oparta na modelu
Katedra Informatyki Klasyfikacja dokumentów Klasyfikacja oparta na modelu wartość 11 wartość 12 ... wartość 1n A wartość 21 wartość 22 wartość 2n B wartość t1 wartość t2 wartość tn Dane historyczne analizowane są w trakcie uczenia modelu. Podczas klasyfikacji przeliczany jest tylko model Uczenie Model Dane wejściowe modelu Klasyfikacja (np. A) Nowy dokument wartość 1 ... wartość n

Klasyfikacja dokumentów Metoda najbliższego sąsiada
Katedra Informatyki Klasyfikatory metodą najbliższych sąsiadów są typowymi przykładami klasyfikacji opartej na historii. Nie ma fazy uczenia modelu. Klasyfikacja opiera się na wykorzystaniu zbioru treningowego przykładów D. Dla danego dokumentu d: Obliczamy podobieństwo d do każdego z przykładów ze zbioru treningowego D. Przypisujemy d kategorię do której należał najbardziej podobny przykład ze zbioru D. Wykorzystanie w procesie klasyfikacji wyłącznie najbliższego egzemplarza przykładowego może powodować błędy: Powodowane przez pojedyncze nietypowe przykłady. Powodowane przez szum, tj. błędy w przypisaniu kategorii niektórym egzemplarzom przykładowym.

Klasyfikacja dokumentów Metoda najbliższego sąsiada
Katedra Informatyki Government Science Arts

Klasyfikacja dokumentów Metoda k najbliższych sąsiadów (kNN)
Katedra Informatyki Dla danego dokumentu d: Obliczamy podobieństwo d do każdego z przykładów ze zbioru treningowego D. Wyszukujemy następnie k najbardziej podobnych przykładów treningowych (stąd nazwa k najbliższych sąsiadów) i analizujemy kategorie do których one należą. Nowemu dokumentowi d przypisujemy kategorię reprezentowaną przez większość z tych k wybranych przykładów. Alternatywnie możemy przedstawić wynik klasyfikacji jako rozkład prawdopodobieństwa P(c|d) = i/k gdzie i jest liczbą spośród k przykładów należących co klasy c. Wartość k dobierana jest dla konkretnego przypadku. Najczęściej, aby uniknąć remisów wybiera się 3 lub 5.

Katedra Informatyki Government Science Arts

Katedra Informatyki Miary podobieństwa (lub odległości): Dla ciągłych wielowymiarowych przestrzeni najprostszym wyborem jest euklidesowa miara odległości. Dla wielowymiarowych przestrzeni binarnych najprostszym wyborem jest miara odległości Hamminga (liczba wartości cech, które się pokrywają). W przypadku tekstów najczęściej stosowana jest miara podobieństwa cosinusów i wagi tf*idf. kNN i indeksy odwrotne. Określenie k najbliższych sąsiadów polega na tum samym co znalezienie k dokumentów najbliższych do zapytania. Najprościej więc wykorzystać do tego standardowe metody przetwarzania zapytania w indeksie odwrotnym dla modelu wektorowego.

Katedra Informatyki Klasyfikacja dokumentów Metoda k najbliższych sąsiadów (kNN) A - SF B – Astronomia C - Western Blaster Czarna dziura Grawitacja Gwiazda Indianie Kosmos Kowboj Nadprzestrzeń Obserwacja Planeta Podróż Rewolwerowiec Teleskop Kategoria 1 A C B 3 0,61 2 0,41 1 0,18 0,50 4 0,73 0,67 0,55 0.50 A - SF 1

Katedra Informatyki Ilustracja metody 3NN dla tekstu Nowy dokument Ponieważ 2 z 3 należą do kategorii „niebieski” – więc „niebieski”

Klasyfikacja dokumentów Profile – Metoda Rocchio
Katedra Informatyki Wykorzystywana w sprzężeniu relewancji metoda Rocchio jest również standardową metodą generowania profilu kategorii na podstawie danych. Opisy przykładowych dokumentów dla każdej kategorii (dane treningowe) reprezentowane są w formie standardowych wektorów tf*idf. Profil (prototyp) każdej kategorii tworzony jest jako centroid (wektor średnich) z wektorów wszystkich egzemplarzy przykładowych należących do danej kategorii. Jeśli w systemie używana jest dalej miara podobieństwa cosinusoidalnego (lub inna znormalizowana miara podobieństwa), to profil może być po prostu sumą wektorów egzemplarzy z danej kategorii. Cosinus jest niewrażliwy na długości wektorów. Klasyfikacja nowego dokumentu odbywa się na podstawie jego podobieństwa do profili kategorii. Dokumentowi przypisywana jest kategoria, której profil jest najbardziej podobny do reprezentującego go wektora.

Katedra Informatyki Profile kategorii Nowy dokument Ponieważ najbliższy profil należy do kategorii „niebieski” – więc „niebieski”

Katedra Informatyki Metody oparte na profilach mają problem z kategoriami polimorficznymi (dyzjunkcyjnymi)

Katedra Informatyki Metoda kNN radzi sobie z klasami dyzjunkcyjnymi dużo lepiej

Klasyfikacja dokumentów Naiwny klasyfikator Bayesowski
Katedra Informatyki Naiwny klasyfikator Bayesowski jest przykładem klasyfikacji opartej na modelu. W klasyfikatorach Bayesowskich tworzymy model, który dla danego wzorca x, opisującego dany dokument stara się oszacować prawdopodobieństwo Pr(C/x), przynależności tego wzorca do określonej klasy C. Bezpośrednie oszacowanie Pr(C/x) jest trudne, ponieważ x jest wektorem o wielu wymiarach. Aby oszacować rozkład prawdopodobieństwa w wielowymiarowej przestrzeni, niezbędne są olbrzymie ilości danych, „pokrywające” całą rozważaną przestrzeń. Twierdzenie Bayesa

Katedra Informatyki W naiwnym klasyfikatorze Bayesowskim zakładamy, że poszczególne cechy opisujące produkt są niezależne. Dla zdarzeń niezależnych prawdopodobieństwo iloczynu zdarzeń równe jest iloczynowi ich prawdopodobieństw. Jest to założenie upraszczające. W praktyce np. różne słowa kluczowe w opisie dokumentu w dużej części będą od siebie zależne. Dlatego wyniki działania klasyfikatora naiwnego muszą być zawsze zweryfikowane empirycznie. Tym niemniej w praktycznych zastosowaniach model ten osiąga całkiem zadowalające wyniki. Jego prostota obliczeniowa i szybkość działania powoduje, że jest to jedno z najczęściej wykorzystywanych podejść do klasyfikacji dokumentów.

Katedra Informatyki Prawdopodobieństwa występujące w tym modelu mogą być łatwo wyznaczone na podstawie arkusza danych, zawierającego informacje o słowach kluczowych w przykładowych wzorcach dokumentów: Prawdopodobieństwo, że dla danej klasy C, słowo kluczowe xj występuje w opisie dokumentu Pr(xj=1/C) = liczba_dok(xj=1, C) / liczba_dok(C). Prawdopodobieństwo, że dla danej klasy C, słowo kluczowe xj nie występuje w opisie dokumentu Pr(xj=0/C) = 1 – Pr(xj=1/C). Prawdopodobieństwo Pr(C) = liczba_dok(C) / liczba dokumentów. Ponieważ chcemy porównywać prawdopodobieństwa Pr(C/x) dla kolejnych klas C, więc Pr(x) jako takie samo dla wszystkich klas możemy pominąć. Możemy je również policzyć ze wzoru na prawdopodobieństwo całkowite:

Katedra Informatyki Klasyfikacja dokumentów Naiwny klasyfikator Bayesowski Blaster Czarna dziura Grawitacja Gwiazda Indianie Kosmos Kowboj Nadprzestrzeń Obserwacja Planeta Podróż Rewolwerowiec Teleskop Kategoria 1 A C B A - SF B – Astronomia C - Western 3 2 1 4 A B C

Katedra Informatyki Blaster Czarna dziura Grawitacja Gwiazda Indianie Kosmos Kowboj Nadprzestrzeń Obserwacja Planeta Podróż Rewolwerowiec Teleskop Kategoria 1 A C B A - SF B – Astronomia C - Western 0,75 0,5 0,25 0,33 A B C

Katedra Informatyki Blaster Czarna dziura Grawitacja Gwiazda Indianie Kosmos Kowboj Nadprzestrzeń Obserwacja Planeta Podróż Rewolwerowiec Teleskop 0,75 0,5 0,25 0,33 A B C A - SF B – Astronomia C - Western 1 Pr(A/x)=((1-0,75)*0,5*0,25*0,75*(1-0)*0,75*(1-0,25)*0,75*(1-0)*(1-0)*0,25* (1-0)*(1-0,5))*0,33 / Pr(x) = 0,00041 / Pr(x) Pr(B/x)=((1-0)*0,5*0,75*0,75*(1-0)*0,75*(1-0)*0,25*(1-0,75)*(1-0,75)*0,5*(1-0)* (1-0,75))*0,33 / Pr(x) = 0,00014 / Pr(x) Pr(C/x)=0*0,33 / Pr(x) = 0 / Pr(x) Pr(x) = 0, , = 0,00055 Pr(A/x)=0,75 Pr(B/x)=0,25 Pr(C/x)=0

Klasyfikacja dokumentów Naiwny Bayes – praktyczne korekty
Katedra Informatyki Wygładzenie prawdopodobieństw Normalnie prawdopodobieństwa liczone są jako częstości Pr(xj=1/C) = liczba_dok(xj=1, C) / liczba_dok(C). Jednakże takie oszacowanie może być silnie obciążone dla małych prób, a zwłaszcza w przypadku termów o niskiej częstości dokumentu df. Jeśli rzadki term t nie występuje akurat w zbiorze dokumentów treningowych, to Pr(t=1/C) = 0. Jeśli wystąpi on następnie w opisie dokumentu , to Pr(C/x) = 0 dla każdej klasy niezależnie od innych termów (bo mnożenie przez 0 daje 0). Dlatego aby uwzględnić kwestię występowania rzadkich termów, zazwyczaj stosuje się tzw. wygładzanie Laplace’a oszacowań prawdopodobieństw: Pr(xj=1/C) = (liczba_dok(xj=1, C) +1) / (liczba_dok(C)+k). gdzie k jest liczbą kategorii wartości cechy xj (dla binarnych k=2). Mnożenie prawdopodobieństw, które są małymi liczbami (między 0 i 1) może skutkować błędami zmiennopozycyjnymi. Podstawą klasyfikacji może być również log(Pr(C/x)), co pozwala zastąpić tę operację sumowaniem logarytmów prawdopodobieństw log(Pr(xj=1/C)).

Klasyfikacja dokumentów Inne typy modeli klasyfikacyjnych
Katedra Informatyki Klasyfikacja dokumentów Inne typy modeli klasyfikacyjnych Klasyfikatory logiczne (drzewa (reguły) decyzyjne) Wewnętrzne węzły odpowiadają poszczególnym termom. Gałęzie odpowiadają różnym wartościom wag termów (zazwyczaj binarne). Liście odpowiadają kategoriom. Uzyskiwane zazwyczaj na drodze uczenia indukcyjnego drzew (np. algorytm C4.5). Sieci neuronowe. Liniowe sieci perceptronowe. Warstwowe perceptrony (MLP). Sieci o bazie radialnej (RBF). Support Vector Machines (SVM).

Klasyfikacja dokumentów Klasyfikatory liniowe i nieliniowe
Katedra Informatyki Klasyfikatory liniowe Naiwny Bayes, Rocchio, Liniowe perceptrony, Liniowe SVM Klasyfikatory nieliniowe kNN, Drzewa decyzyjne, Nieliniowe sieci neuronowe (MLP, RBF, nieliniowe SVM). Klasyfikatory liniowe tekstów radzą sobie zaskakująco dobrze. Olbrzymi rozmiar przestrzeni wejściowej, dużo większy niż liczba danych treningowych – oznacza to, że zawsze istnieją hiperpłaszczyzny rozdzielające dowolne podzbiory danych dla kategorii. Nie znaczy to jednak oczywiście, że hiperpłaszczyzna jest najlepszym rozwiązaniem.

Klasyfikacja dokumentów Klasyfikatory liniowe
Katedra Informatyki Znajdź a,b,c, takie że ax + by  c dla czerwonych punktów ax + by  c dla zielonych punktów.

Klasyfikacja dokumentów Klasyfikatory liniowe
Katedra Informatyki Generalnie wiele możliwych rozwiązań dla a,b,c.

Klasyfikacja dokumentów Support Vector Machines (SVM)
Katedra Informatyki SVM maksymalizują margines wokół hiperpłaszczyzny rozdzielającej. Dlatego należą do grupy tzw. klasyfikatorów dużego marginesu (large margin classifiers). Funkcja decyzyjna jest definiowana przez podzbiór zbioru treningowego, tzw. wektory wspierające. Wektorami wspierającymi są przykłady najbliższe hiperpłaszczyzny rozdzielającej Określa się je z wykorzystaniem metod programowania kwadratowego. SVM są uważane obecnie za najlepszą metodę klasyfikacji tekstów. Stosuje się również nieliniowe wersje SVM, wykorzystujące różnego typu funkcje jądra. Wektory wspierające Maksymalizacja marginesu

Klasyfikacja dokumentów Porównanie, Reuters (Dumais et al. 1998)
Katedra Informatyki

Klasyfikacja dokumentów Porównanie, Reuters (Joachims 1998)
Katedra Informatyki

Wprowadzenie do budowy usług informacyjnych

Podobne prezentacje

Prezentacja na temat: "Wprowadzenie do budowy usług informacyjnych"— Zapis prezentacji:

Podobne prezentacje

О projekcie

Zwrotny adres

Wejść

Zaloguj się poprzez sieć społeczną:

Wprowadzenie do budowy usług informacyjnych

Podobne prezentacje

Prezentacja na temat: "Wprowadzenie do budowy usług informacyjnych"— Zapis prezentacji:

Podobne prezentacje

О projekcie

Zwrotny adres