Wprowadzenie do budowy usług informacyjnych

Slides:



Advertisements
Podobne prezentacje
Excel Narzędzia do analizy regresji
Advertisements

Data Mining w e-commerce
Wprowadzenie do budowy usług informacyjnych
Mechanizm wnioskowania rozmytego
Inteligencja Obliczeniowa Metody oparte na podobieństwie do wzorców.
Wyszukiwanie informacji W. Bartkiewicz Wykład 2b..
Inteligencja Obliczeniowa Otwieranie czarnej skrzynki.
Katedra Informatyki Stosowanej UMK
Wykład 28 Włodzisław Duch Uniwersytet Mikołaja Kopernika
Inteligencja Obliczeniowa Perceptrony o dużym marginesie błędu
Badania operacyjne. Wykład 1
Wskaźniki analizy technicznej
Sztuczne sieci neuronowe
Komponenty bazy danych Baza danych Jest to uporządkowany zbiór powiązanych ze sobą danych charakterystycznych dla pewnej klasy obiektów lub zdarzeń,
Materiały do zajęć z przedmiotu: Narzędzia i języki programowania Programowanie w języku PASCAL Część 7: Procedury i funkcje © Jan Kaczmarek.
Statystyka w doświadczalnictwie
Rozpoznawanie Twarzy i Systemy Biometryczne, 2005/2006
Rozpoznawanie Twarzy i Systemy Biometryczne, 2005/2006
Wprowadzenie do budowy usług informacyjnych
Metody Sztucznej Inteligencji w Sterowaniu 2009/2010Optymalizacja miary efektywności działania sztucznych sieci neuronowych Dr hab. inż. Kazimierz Duzinkiewicz,
Wykład 7 Wojciech Pieprzyca
Klasyfikacja Obcinanie drzewa Naiwny klasyfikator Bayes’a kNN
Wprowadzenie Sformułowanie problemu Typy reguł asocjacyjnych
Linear Methods of Classification
Klasyfikacja dokumentów za pomocą sieci radialnych Paweł Rokoszny Emil Hornung Michał Ziober Tomasz Bilski.
Klasyfikacja dokumentów za pomocą sieci radialnych
Klasyfikacja dokumentów za pomocą sieci radialnych Paweł Rokoszny Emil Hornung Michał Ziober Tomasz Bilski.
Klasyfikacja dokumentów za pomocą sieci radialnych Paweł Rokoszny Emil Hornung Michał Ziober Tomasz Bilski.
Metody Symulacyjne w Telekomunikacji (MEST) Wykład 6/7: Analiza statystyczna wyników symulacyjnych  Dr inż. Halina Tarasiuk
Średnie i miary zmienności
Strategia skutecznego szukania informacji w Internecie
Konstrukcja, estymacja parametrów
Elementy Rachunku Prawdopodobieństwa i Statystyki
Elementy Rachunku Prawdopodobieństwa i Statystyki
Rozkłady wywodzące się z rozkładu normalnego standardowego
Wanda Klenczon Biblioteka Narodowa
Detekcja twarzy w obrazach cyfrowych
Elementy Rachunku Prawdopodobieństwa i Statystyki
Techniki eksploracji danych
GŁOSOWA ŁĄCZNOŚĆ Z KOMPUTEREM
formalnie: Naiwny klasyfikator Bayesa
Systemy wspomagania decyzji
Homogenizacja Kulawik Krzysztof.
Modelowanie i identyfikacja 2010/2011Optymalizacja miary efektywności działania sztucznych sieci neuronowych Dr hab. inż. Kazimierz Duzinkiewicz, Katedra.
Wybrane zagadnienia relacyjnych baz danych
Sterowanie – metody alokacji biegunów II
Źródła błędów w obliczeniach numerycznych
SYSTEMY EKSPERTOWE I SZTUCZNA INTELIGENCJA
SYSTEMY EKSPERTOWE I SZTUCZNA INTELIGENCJA
VI EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja
IV EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja
SYSTEMY EKSPERTOWE I SZTUCZNA INTELIGENCJA
Co to jest dystrybuanta?
Zagadnienia AI wykład 2.
Grafika i komunikacja człowieka z komputerem
Warstwowe sieci jednokierunkowe – perceptrony wielowarstwowe
Metody Inteligencji Obliczeniowej
Statystyczna analiza danych w praktyce
Statystyczna analiza danych
Statystyczna analiza danych
GeneracjeTechnologia Architektura przetwarzania 0. Przekaźniki elektromechaniczne 1. Lampy elektronowe 2. Tranzystory 3. Układy scalone 3.5.Układy dużej.
Metody Inteligencji Obliczeniowej Adrian Horzyk Adrian Horzyk Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii.
Inteligencja Obliczeniowa Perceptrony o dużym marginesie błędu
Struktury i algorytmy wspomagania decyzji
Systemy neuronowo – rozmyte
Perceptrony o dużym marginesie błędu
Co do tej pory robiliśmy:
Jednorównaniowy model regresji liniowej
Perceptrony o dużym marginesie błędu
Zapis prezentacji:

Wprowadzenie do budowy usług informacyjnych Uniwersytet Łódzki Katedra Informatyki W. Bartkiewicz Wprowadzenie do budowy usług informacyjnych Wykład 5. Klasyfikacja dokumentów tekstowych Filtrowanie, rekomendacja i kategoryzacja

Klasyfikacja dokumentów Katedra Informatyki Klasyfikacja dokumentów polega na przypisaniu każdemu dokumentowi dj z danego zbioru dokumentów, jednej ze skończonego zbioru ustalonych z góry kategorii (klas). Tak więc dla danego dokumentu dj reprezentowanego przez wektor cech (x1, ..., xn) chcemy znaleźć odwzorowanie przypisujące mu jedną ze zbioru kategorii C = {c1, ..., cm}. Odwzorowanie f: Rn  (x1, ..., xn)  cm C nazywamy klasyfikatorem, albo odwzorowaniem klasyfikacyjnym. Do stworzenia odwzorowania klasyfikacyjnego niezbędne są dodatkowe informacje. Zazwyczaj przyjmują one jedną z dwu podstawowych form: Profil (prototyp klasy, centroid), zawierający typowe, charakterystyczne cechy odróżniające daną kategorię od innych. Zbiór przykładów dokumentów należących do poszczególnych kategorii. (Może posłużyć on bezpośrednio do budowy odwzorowania klasyfikacyjnego, lub pośrednio do wygenerowania profilu).

Klasyfikacja dokumentów Katedra Informatyki Multimedia GUI Garb.Coll. Semantics ML Planning planning temporal reasoning plan language... programming semantics language proof... learning intelligence algorithm reinforcement network... garbage collection memory optimization region... “planning proof intelligence” Profile: Dokument: Kategorie: (AI) (Programming) (HCI) ...

Klasyfikacja dokumentów Katedra Informatyki Blaster Czarna dziura Grawitacja Gwiazda Indianie Kosmos Kowboj Nadprzestrzeń Obserwacja Planeta Podróż Rewolwerowiec Teleskop Kategoria 1,81 0,88 0,95 0,3 A 0,18 4,77 0,9 2,86 C 0,38 4,82 2,39 0,48 1,43 2,88 0,53 1,91 B 0,6 0,7 0,35 3,42 1,06 1,2 0,76 1,23 1,41 4,29 4,21 1,51 3,01 2,11 A - SF B – Astronomia C - Western

Klasyfikacja dokumentów Filtrowanie i rekomendacja Katedra Informatyki Filtrowanie informacji jest procesem zbliżonym do wyszukiwania. W przypadku wyszukiwania mamy stały zasób informacyjny i wielu użytkowników, wyrażających swoje różne potrzeby informacyjne. W przypadku filtrowania mamy do czynienia z jednym użytkownikiem i stałą potrzebą informacyjną, natomiast zmiennym zasobem informacji, często w postaci pewnego strumienia dokumentów. Stały charakter potrzeby informacyjnej umożliwia zastosowanie w przypadku filtrowania metod personalizacji, pozwalającej na dostosowanie procesu analizy dokumentu do potrzeb konkretnego użytkownika. Generalnie filtrowanie może być traktowane jako spersonalizowane wyszukiwanie informacji. Typowe obszary zastosowań: Wyszukiwanie tematyczne w internecie, w którym system wyszukiwawczy analizuje zawartość dokumentów webowych pod kątem ich dostosowania lub nie do pewnego zadanego tematu.

Klasyfikacja dokumentów Filtrowanie i rekomendacja Katedra Informatyki Typowe obszary zastosowań: Filtrowanie spamu, polegające na zaklasyfikowaniu dokumentu wiadomości e-mail jako spamu lub jako wiadomości użytecznej dla użytkownika. Spersonalizowane czasopisma (filtrowanie wiadomości) w których system ma za zadanie zaklasyfikować daną wiadomość jako interesującą (relewantną) dla użytkownika lub nie. Rekomendacja stron webowych, w której system ma za zadanie przeanalizować strony znajdujące się w bazie dokumentów (np. katalogu towarów) tak, aby na bazie stron przejrzanych wcześniej przez użytkownika zaproponować nowe strony, które mogą go również zainteresować. Priorytetowanie dokumentów e-mail, zaliczenie dokumentu do kategorii ważności. W przypadku filtrowania mamy zazwyczaj do czynienia z klasyfikacją dokumentu do jednej z dwu kategorii: odpowiadający tematowi – nieodpowiedni, użyteczny – spam, relewantny – nierelewantny, itp.

Klasyfikacja dokumentów Katalogowanie Katedra Informatyki Kolejnym z typowych zastosowań klasyfikacji dokumentów są katalogi tematyczne. Klasyczna metoda porządkowania informacji pod kątem tematycznym. Tradycyjnie proces katalogowania wykonywany jest przez ludzi. Dobre wyniki jeśli wykonują to eksperci. Model mentalny struktury katalogu eksperta nie zawsze musi być zgodny z modelem użytkownika. Problemy spójności przy większej grupie ekspertów. Podejście trudne i drogie w skalowaniu. Obecnie coraz częściej skalowalność staje się problemem. Katalogi elektroniczne mogą przechowywać informacje nawet o dziesiątkach albo setkach tysięcy ofert produktów. Konieczność oceny dokumentu przez człowieka i zakwalifikowania go do określonej kategorii staje się często wąskim gardłem, opóźniającym dostarczenie aktualnej informacji o zawartości katalogu.

Klasyfikacja dokumentów Katalogowanie Katedra Informatyki Zastosowanie systemów automatycznej klasyfikacji może być rozwiązaniem problemu skalowalności. Klasyfikacja automatyczna pozwala również na zachowanie pewnego obiektywizmu w przydziale produktów do kategorii. Typowe aplikacje Katalogi biblioteczne, webowe (np. Yahoo), katalogi produktów itp. Klasyfikacja tematyczna dokumentów mailowych, wiadomości, itp. Wizualizacja i przeglądanie struktury tematycznej bazy dokumentów. W procesie katalogowania dokument zaliczany jest zazwyczaj do jednej z kilku – kilkudziesięciu kategorii tematycznych.

Klasyfikacja dokumentów Indeksowanie i modyfikacja zapytań Katedra Informatyki Kolejny typ zastosowań związany jest z ujednoznacznianiem słownictwa wykorzystywanego jednej strony do opisu dokumentu, z drugiej zaś do specyfikacji zapytania. System klasyfikujący dokonuje klasyfikacji dokumentu na podstawie jego opisu w warstwie leksykalnej (np. słów zawartych w dokumencie) do zbioru jednoznacznych termów słownika kontrolowanego (pojęć). Równolegle do tej samej przestrzeni jednoznacznych termów klasyfikowane są wykonywane w systemie wyszukiwawczym zapytania. Wyszukiwanie odbywa się poprzez wyznaczenie podobieństwa zapytania do dokumentów w przestrzeni pojęć. Wymiar przestrzeni kategorii C, do których klasyfikowane są dokument i zapytanie, zazwyczaj jest w przypadku tego zadania bardzo duży, rzędu kilkuset – kilku tysięcy kategorii.

Klasyfikacja dokumentów Klasyfikacja oparta na historii Katedra Informatyki Klasyfikacja dokumentów Klasyfikacja oparta na historii Analiza danych historycznych powtarzana jest dla każdego nowo klasyfikowanego dokumentu wartość 11 wartość 12 ... wartość 1n A wartość 21 wartość 22 wartość 2n B wartość t1 wartość t2 wartość tn Analiza danych historycznych Klasyfikacja (np. A) Nowy dokument wartość 1 ... wartość n

Klasyfikacja dokumentów Klasyfikacja oparta na modelu Katedra Informatyki Klasyfikacja dokumentów Klasyfikacja oparta na modelu wartość 11 wartość 12 ... wartość 1n A wartość 21 wartość 22 wartość 2n B wartość t1 wartość t2 wartość tn Dane historyczne analizowane są w trakcie uczenia modelu. Podczas klasyfikacji przeliczany jest tylko model Uczenie Model Dane wejściowe modelu Klasyfikacja (np. A) Nowy dokument wartość 1 ... wartość n

Klasyfikacja dokumentów Metoda najbliższego sąsiada Katedra Informatyki Klasyfikatory metodą najbliższych sąsiadów są typowymi przykładami klasyfikacji opartej na historii. Nie ma fazy uczenia modelu. Klasyfikacja opiera się na wykorzystaniu zbioru treningowego przykładów D. Dla danego dokumentu d: Obliczamy podobieństwo d do każdego z przykładów ze zbioru treningowego D. Przypisujemy d kategorię do której należał najbardziej podobny przykład ze zbioru D. Wykorzystanie w procesie klasyfikacji wyłącznie najbliższego egzemplarza przykładowego może powodować błędy: Powodowane przez pojedyncze nietypowe przykłady. Powodowane przez szum, tj. błędy w przypisaniu kategorii niektórym egzemplarzom przykładowym.

Klasyfikacja dokumentów Metoda najbliższego sąsiada Katedra Informatyki Government Science Arts

Klasyfikacja dokumentów Metoda k najbliższych sąsiadów (kNN) Katedra Informatyki Dla danego dokumentu d: Obliczamy podobieństwo d do każdego z przykładów ze zbioru treningowego D. Wyszukujemy następnie k najbardziej podobnych przykładów treningowych (stąd nazwa k najbliższych sąsiadów) i analizujemy kategorie do których one należą. Nowemu dokumentowi d przypisujemy kategorię reprezentowaną przez większość z tych k wybranych przykładów. Alternatywnie możemy przedstawić wynik klasyfikacji jako rozkład prawdopodobieństwa P(c|d) = i/k gdzie i jest liczbą spośród k przykładów należących co klasy c. Wartość k dobierana jest dla konkretnego przypadku. Najczęściej, aby uniknąć remisów wybiera się 3 lub 5.

Klasyfikacja dokumentów Metoda k najbliższych sąsiadów (kNN) Katedra Informatyki Government Science Arts

Klasyfikacja dokumentów Metoda k najbliższych sąsiadów (kNN) Katedra Informatyki Miary podobieństwa (lub odległości): Dla ciągłych wielowymiarowych przestrzeni najprostszym wyborem jest euklidesowa miara odległości. Dla wielowymiarowych przestrzeni binarnych najprostszym wyborem jest miara odległości Hamminga (liczba wartości cech, które się pokrywają). W przypadku tekstów najczęściej stosowana jest miara podobieństwa cosinusów i wagi tf*idf. kNN i indeksy odwrotne. Określenie k najbliższych sąsiadów polega na tum samym co znalezienie k dokumentów najbliższych do zapytania. Najprościej więc wykorzystać do tego standardowe metody przetwarzania zapytania w indeksie odwrotnym dla modelu wektorowego.

Klasyfikacja dokumentów Metoda k najbliższych sąsiadów (kNN) Katedra Informatyki Klasyfikacja dokumentów Metoda k najbliższych sąsiadów (kNN) A - SF B – Astronomia C - Western Blaster Czarna dziura Grawitacja Gwiazda Indianie Kosmos Kowboj Nadprzestrzeń Obserwacja Planeta Podróż Rewolwerowiec Teleskop Kategoria 1 A C B 3 0,61 2 0,41 1 0,18 0,50 4 0,73 0,67 0,55 0.50 A - SF 1

Klasyfikacja dokumentów Metoda k najbliższych sąsiadów (kNN) Katedra Informatyki Ilustracja metody 3NN dla tekstu Nowy dokument Ponieważ 2 z 3 należą do kategorii „niebieski” – więc „niebieski”

Klasyfikacja dokumentów Profile – Metoda Rocchio Katedra Informatyki Wykorzystywana w sprzężeniu relewancji metoda Rocchio jest również standardową metodą generowania profilu kategorii na podstawie danych. Opisy przykładowych dokumentów dla każdej kategorii (dane treningowe) reprezentowane są w formie standardowych wektorów tf*idf. Profil (prototyp) każdej kategorii tworzony jest jako centroid (wektor średnich) z wektorów wszystkich egzemplarzy przykładowych należących do danej kategorii. Jeśli w systemie używana jest dalej miara podobieństwa cosinusoidalnego (lub inna znormalizowana miara podobieństwa), to profil może być po prostu sumą wektorów egzemplarzy z danej kategorii. Cosinus jest niewrażliwy na długości wektorów. Klasyfikacja nowego dokumentu odbywa się na podstawie jego podobieństwa do profili kategorii. Dokumentowi przypisywana jest kategoria, której profil jest najbardziej podobny do reprezentującego go wektora.

Klasyfikacja dokumentów Profile – Metoda Rocchio Katedra Informatyki Profile kategorii Nowy dokument Ponieważ najbliższy profil należy do kategorii „niebieski” – więc „niebieski”

Klasyfikacja dokumentów Profile – Metoda Rocchio Katedra Informatyki Metody oparte na profilach mają problem z kategoriami polimorficznymi (dyzjunkcyjnymi)

Klasyfikacja dokumentów Profile – Metoda Rocchio Katedra Informatyki Metoda kNN radzi sobie z klasami dyzjunkcyjnymi dużo lepiej

Klasyfikacja dokumentów Naiwny klasyfikator Bayesowski Katedra Informatyki Naiwny klasyfikator Bayesowski jest przykładem klasyfikacji opartej na modelu. W klasyfikatorach Bayesowskich tworzymy model, który dla danego wzorca x, opisującego dany dokument stara się oszacować prawdopodobieństwo Pr(C/x), przynależności tego wzorca do określonej klasy C. Bezpośrednie oszacowanie Pr(C/x) jest trudne, ponieważ x jest wektorem o wielu wymiarach. Aby oszacować rozkład prawdopodobieństwa w wielowymiarowej przestrzeni, niezbędne są olbrzymie ilości danych, „pokrywające” całą rozważaną przestrzeń. Twierdzenie Bayesa

Klasyfikacja dokumentów Naiwny klasyfikator Bayesowski Katedra Informatyki W naiwnym klasyfikatorze Bayesowskim zakładamy, że poszczególne cechy opisujące produkt są niezależne. Dla zdarzeń niezależnych prawdopodobieństwo iloczynu zdarzeń równe jest iloczynowi ich prawdopodobieństw. Jest to założenie upraszczające. W praktyce np. różne słowa kluczowe w opisie dokumentu w dużej części będą od siebie zależne. Dlatego wyniki działania klasyfikatora naiwnego muszą być zawsze zweryfikowane empirycznie. Tym niemniej w praktycznych zastosowaniach model ten osiąga całkiem zadowalające wyniki. Jego prostota obliczeniowa i szybkość działania powoduje, że jest to jedno z najczęściej wykorzystywanych podejść do klasyfikacji dokumentów.

Klasyfikacja dokumentów Naiwny klasyfikator Bayesowski Katedra Informatyki Prawdopodobieństwa występujące w tym modelu mogą być łatwo wyznaczone na podstawie arkusza danych, zawierającego informacje o słowach kluczowych w przykładowych wzorcach dokumentów: Prawdopodobieństwo, że dla danej klasy C, słowo kluczowe xj występuje w opisie dokumentu Pr(xj=1/C) = liczba_dok(xj=1, C) / liczba_dok(C). Prawdopodobieństwo, że dla danej klasy C, słowo kluczowe xj nie występuje w opisie dokumentu Pr(xj=0/C) = 1 – Pr(xj=1/C). Prawdopodobieństwo Pr(C) = liczba_dok(C) / liczba dokumentów. Ponieważ chcemy porównywać prawdopodobieństwa Pr(C/x) dla kolejnych klas C, więc Pr(x) jako takie samo dla wszystkich klas możemy pominąć. Możemy je również policzyć ze wzoru na prawdopodobieństwo całkowite:

Klasyfikacja dokumentów Naiwny klasyfikator Bayesowski Katedra Informatyki Klasyfikacja dokumentów Naiwny klasyfikator Bayesowski Blaster Czarna dziura Grawitacja Gwiazda Indianie Kosmos Kowboj Nadprzestrzeń Obserwacja Planeta Podróż Rewolwerowiec Teleskop Kategoria 1 A C B A - SF B – Astronomia C - Western 3 2 1 4 A B C

Klasyfikacja dokumentów Naiwny klasyfikator Bayesowski Katedra Informatyki Blaster Czarna dziura Grawitacja Gwiazda Indianie Kosmos Kowboj Nadprzestrzeń Obserwacja Planeta Podróż Rewolwerowiec Teleskop Kategoria 1 A C B A - SF B – Astronomia C - Western 0,75 0,5 0,25 0,33 A B C

Klasyfikacja dokumentów Naiwny klasyfikator Bayesowski Katedra Informatyki Blaster Czarna dziura Grawitacja Gwiazda Indianie Kosmos Kowboj Nadprzestrzeń Obserwacja Planeta Podróż Rewolwerowiec Teleskop 0,75 0,5 0,25 0,33 A B C A - SF B – Astronomia C - Western 1 Pr(A/x)=((1-0,75)*0,5*0,25*0,75*(1-0)*0,75*(1-0,25)*0,75*(1-0)*(1-0)*0,25* (1-0)*(1-0,5))*0,33 / Pr(x) = 0,00041 / Pr(x) Pr(B/x)=((1-0)*0,5*0,75*0,75*(1-0)*0,75*(1-0)*0,25*(1-0,75)*(1-0,75)*0,5*(1-0)* (1-0,75))*0,33 / Pr(x) = 0,00014 / Pr(x) Pr(C/x)=0*0,33 / Pr(x) = 0 / Pr(x) Pr(x) = 0,00041+0,00014+0 = 0,00055 Pr(A/x)=0,75 Pr(B/x)=0,25 Pr(C/x)=0

Klasyfikacja dokumentów Naiwny Bayes – praktyczne korekty Katedra Informatyki Wygładzenie prawdopodobieństw Normalnie prawdopodobieństwa liczone są jako częstości Pr(xj=1/C) = liczba_dok(xj=1, C) / liczba_dok(C). Jednakże takie oszacowanie może być silnie obciążone dla małych prób, a zwłaszcza w przypadku termów o niskiej częstości dokumentu df. Jeśli rzadki term t nie występuje akurat w zbiorze dokumentów treningowych, to Pr(t=1/C) = 0. Jeśli wystąpi on następnie w opisie dokumentu , to Pr(C/x) = 0 dla każdej klasy niezależnie od innych termów (bo mnożenie przez 0 daje 0). Dlatego aby uwzględnić kwestię występowania rzadkich termów, zazwyczaj stosuje się tzw. wygładzanie Laplace’a oszacowań prawdopodobieństw: Pr(xj=1/C) = (liczba_dok(xj=1, C) +1) / (liczba_dok(C)+k). gdzie k jest liczbą kategorii wartości cechy xj (dla binarnych k=2). Mnożenie prawdopodobieństw, które są małymi liczbami (między 0 i 1) może skutkować błędami zmiennopozycyjnymi. Podstawą klasyfikacji może być również log(Pr(C/x)), co pozwala zastąpić tę operację sumowaniem logarytmów prawdopodobieństw log(Pr(xj=1/C)).

Klasyfikacja dokumentów Inne typy modeli klasyfikacyjnych Katedra Informatyki Klasyfikacja dokumentów Inne typy modeli klasyfikacyjnych Klasyfikatory logiczne (drzewa (reguły) decyzyjne) Wewnętrzne węzły odpowiadają poszczególnym termom. Gałęzie odpowiadają różnym wartościom wag termów (zazwyczaj binarne). Liście odpowiadają kategoriom. Uzyskiwane zazwyczaj na drodze uczenia indukcyjnego drzew (np. algorytm C4.5). Sieci neuronowe. Liniowe sieci perceptronowe. Warstwowe perceptrony (MLP). Sieci o bazie radialnej (RBF). Support Vector Machines (SVM).

Klasyfikacja dokumentów Klasyfikatory liniowe i nieliniowe Katedra Informatyki Klasyfikatory liniowe Naiwny Bayes, Rocchio, Liniowe perceptrony, Liniowe SVM Klasyfikatory nieliniowe kNN, Drzewa decyzyjne, Nieliniowe sieci neuronowe (MLP, RBF, nieliniowe SVM). Klasyfikatory liniowe tekstów radzą sobie zaskakująco dobrze. Olbrzymi rozmiar przestrzeni wejściowej, dużo większy niż liczba danych treningowych – oznacza to, że zawsze istnieją hiperpłaszczyzny rozdzielające dowolne podzbiory danych dla kategorii. Nie znaczy to jednak oczywiście, że hiperpłaszczyzna jest najlepszym rozwiązaniem.

Klasyfikacja dokumentów Klasyfikatory liniowe Katedra Informatyki Znajdź a,b,c, takie że ax + by  c dla czerwonych punktów ax + by  c dla zielonych punktów.

Klasyfikacja dokumentów Klasyfikatory liniowe Katedra Informatyki Generalnie wiele możliwych rozwiązań dla a,b,c.

Klasyfikacja dokumentów Support Vector Machines (SVM) Katedra Informatyki SVM maksymalizują margines wokół hiperpłaszczyzny rozdzielającej. Dlatego należą do grupy tzw. klasyfikatorów dużego marginesu (large margin classifiers). Funkcja decyzyjna jest definiowana przez podzbiór zbioru treningowego, tzw. wektory wspierające. Wektorami wspierającymi są przykłady najbliższe hiperpłaszczyzny rozdzielającej Określa się je z wykorzystaniem metod programowania kwadratowego. SVM są uważane obecnie za najlepszą metodę klasyfikacji tekstów. Stosuje się również nieliniowe wersje SVM, wykorzystujące różnego typu funkcje jądra. Wektory wspierające Maksymalizacja marginesu

Klasyfikacja dokumentów Porównanie, Reuters (Dumais et al. 1998) Katedra Informatyki

Klasyfikacja dokumentów Porównanie, Reuters (Joachims 1998) Katedra Informatyki