Wyszukiwanie informacji W. Bartkiewicz Wykład 2b..

Slides:

Advertisements

Podobne prezentacje

Excel Narzędzia do analizy regresji

Advertisements

Data Mining w e-commerce

PODZIAŁ STATYSTYKI STATYSTYKA STATYSTYKA MATEMATYCZNA STATYSTYKA

Wprowadzenie do budowy usług informacyjnych

Wprowadzenie do budowy usług informacyjnych

Inteligencja Obliczeniowa Metody oparte na podobieństwie do wzorców.

Inteligencja Obliczeniowa Otwieranie czarnej skrzynki.

Katedra Informatyki Stosowanej UMK

Uczenie konkurencyjne.

Inteligencja Obliczeniowa Perceptrony o dużym marginesie błędu

Badania operacyjne. Wykład 1

Sztuczne sieci neuronowe

Regresja w EXCELU.

Metody wnioskowania na podstawie podprób

Komponenty bazy danych Baza danych Jest to uporządkowany zbiór powiązanych ze sobą danych charakterystycznych dla pewnej klasy obiektów lub zdarzeń,

Propozycja metodyki nauczania inżynierii oprogramowania

Materiały do zajęć z przedmiotu: Narzędzia i języki programowania Programowanie w języku PASCAL Część 7: Procedury i funkcje © Jan Kaczmarek.

Support.ebsco.com EBSCOhost Wyszukiwanie podstawowe dla Bibliotek akademickich Szkolenie.

Rozpoznawanie Twarzy i Systemy Biometryczne, 2005/2006

Rozpoznawanie Twarzy i Systemy Biometryczne, 2005/2006

Wprowadzenie do budowy usług informacyjnych

Paweł Kramarski Seminarium Dyplomowe Magisterskie 2

Wykład 7 Wojciech Pieprzyca

Klasyfikacja Obcinanie drzewa Naiwny klasyfikator Bayes’a kNN

Wprowadzenie Sformułowanie problemu Typy reguł asocjacyjnych

Linear Methods of Classification

Additive Models, Trees, and Related Methods

Mirosław ŚWIERCZ Politechnika Białostocka, Wydział Elektryczny

Klasyfikacja dokumentów za pomocą sieci radialnych Paweł Rokoszny Emil Hornung Michał Ziober Tomasz Bilski.

Klasyfikacja dokumentów za pomocą sieci radialnych

Klasyfikacja dokumentów za pomocą sieci radialnych Paweł Rokoszny Emil Hornung Michał Ziober Tomasz Bilski.

Klasyfikacja dokumentów za pomocą sieci radialnych Paweł Rokoszny Emil Hornung Michał Ziober Tomasz Bilski.

Średnie i miary zmienności

Konstrukcja, estymacja parametrów

Elementy Rachunku Prawdopodobieństwa i Statystyki

Rozkłady wywodzące się z rozkładu normalnego standardowego

Wanda Klenczon Biblioteka Narodowa

Detekcja twarzy w obrazach cyfrowych

Techniki eksploracji danych

GŁOSOWA ŁĄCZNOŚĆ Z KOMPUTEREM

formalnie: Naiwny klasyfikator Bayesa

Systemy wspomagania decyzji

Homogenizacja Kulawik Krzysztof.

Modelowanie i Identyfikacja 2011/2012 Metoda propagacji wstecznej Dr hab. inż. Kazimierz Duzinkiewicz, Katedra Inżynierii Systemów Sterowania 1 Warstwowe.

Wybrane zagadnienia relacyjnych baz danych

Sterowanie – metody alokacji biegunów II

SYSTEMY EKSPERTOWE I SZTUCZNA INTELIGENCJA

SYSTEMY EKSPERTOWE I SZTUCZNA INTELIGENCJA

VI EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja

IV EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja

SYSTEMY EKSPERTOWE I SZTUCZNA INTELIGENCJA

Metody odszumiania sygnałów

Co to jest dystrybuanta?

Studium osiągalności. Rozmiar projektu (np. w punktach funkcyjny projektu w porównaniu do rozmiaru zakładanego zespołu projektowego i czasu Dostępność.

Treści multimedialne - kodowanie, przetwarzanie, prezentacja Odtwarzanie treści multimedialnych Andrzej Majkowski informatyka +

Grafika i komunikacja człowieka z komputerem

Warstwowe sieci jednokierunkowe – perceptrony wielowarstwowe

BAZY DANYCH MS Access.

Metody Inteligencji Obliczeniowej

Statystyczna analiza danych w praktyce

Statystyczna analiza danych

GeneracjeTechnologia Architektura przetwarzania 0. Przekaźniki elektromechaniczne 1. Lampy elektronowe 2. Tranzystory 3. Układy scalone 3.5.Układy dużej.

Metody Inteligencji Obliczeniowej Adrian Horzyk Adrian Horzyk Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii.

Inteligencja Obliczeniowa Perceptrony o dużym marginesie błędu

Struktury i algorytmy wspomagania decyzji

Systemy neuronowo – rozmyte

Perceptrony o dużym marginesie błędu

Co do tej pory robiliśmy:

Perceptrony o dużym marginesie błędu

Selekcja danych Korelacja.

Zapis prezentacji:

Wyszukiwanie informacji W. Bartkiewicz Wykład 2b.

Klasyfikacja dokumentów Klasyfikacja dokumentów polega na przypisaniu każdemu dokumentowi d j z danego zbioru dokumentów, jednej ze skończonego zbioru ustalonych z góry kategorii (klas). –Tak więc dla danego dokumentu d j reprezentowanego przez wektor cech (x 1,..., x n ) chcemy znaleźć odwzorowanie przypisujące mu jedną ze zbioru kategorii C = {c 1,..., c m }. –Odwzorowanie f: R n (x 1,..., x n ) c m C nazywamy klasyfikatorem, albo odwzorowaniem klasyfikacyjnym. Do stworzenia odwzorowania klasyfikacyjnego niezbędne są dodatkowe informacje. Zazwyczaj przyjmują one jedną z dwu podstawowych form: –Profil (prototyp klasy, centroid), zawierający typowe, charakterystyczne cechy odróżniające daną kategorię od innych. –Zbiór przykładów dokumentów należących do poszczególnych kategorii. (Może posłużyć on bezpośrednio do budowy odwzorowania klasyfikacyjnego, lub pośrednio do wygenerowania profilu).

Klasyfikacja dokumentów MultimediaGUIGarb.Coll.Semantics ML Planning planning temporal reasoning plan language... programming semantics language proof... learning intelligence algorithm reinforcement network... garbage collection memory optimization region... planning language proof intelligence Profile: Dokument: Kategorie: (AI)(Programming)(HCI)...

Klasyfikacja dokumentów Blaster Czarna dziura Grawitacja Gwiazda Indianie Kosmos Kowboj Nadprzestrzeń Obserwacja Planeta Podróż Rewolwerowiec Teleskop Kategoria 1,81000,880000,95000,300A 0000,18004,770000,92,860C 000,3804,8202,3900,48001,430C 04,772,88000,53000,481,91000,3B 0,60,9500,700,3502, A 003,421,0600,7002,3900,601,2B 00,480,76001,2301, ,6A 0001,4100,18000,484,290,600B 00004,2101,43000,481,510,950C 02,863,420,8800,350001,43000,6B 0000,353,010, ,112,390,3C 1,2001,2300,70,481, ,6A A - SF B – Astronomia C - Western

Klasyfikacja dokumentów Filtrowanie i rekomendacja Filtrowanie informacji jest procesem zbliżonym do wyszukiwania. –W przypadku wyszukiwania mamy stały zasób informacyjny i wielu użytkowników, wyrażających swoje różne potrzeby informacyjne. –W przypadku filtrowania mamy do czynienia z jednym użytkownikiem i stałą potrzebą informacyjną, natomiast zmiennym zasobem informacji, często w postaci pewnego strumienia dokumentów. Stały charakter potrzeby informacyjnej umożliwia zastosowanie w przypadku filtrowania metod personalizacji, pozwalającej na dostosowanie procesu analizy dokumentu do potrzeb konkretnego użytkownika. –Generalnie filtrowanie może być traktowane jako spersonalizowane wyszukiwanie informacji. Typowe obszary zastosowań: –Wyszukiwanie tematyczne w internecie, w którym system wyszukiwawczy analizuje zawartość dokumentów webowych pod kątem ich dostosowania lub nie do pewnego zadanego tematu.

Klasyfikacja dokumentów Filtrowanie i rekomendacja Typowe obszary zastosowań: –Filtrowanie spamu, polegające na zaklasyfikowaniu dokumentu wiadomości jako spamu lub jako wiadomości użytecznej dla użytkownika. –Spersonalizowane czasopisma (filtrowanie wiadomości) w których system ma za zadanie zaklasyfikować daną wiadomość jako interesującą (relewantną) dla użytkownika lub nie. –Rekomendacja stron webowych, w której system ma za zadanie przeanalizować strony znajdujące się w bazie dokumentów (np. katalogu towarów) tak, aby na bazie stron przejrzanych wcześniej przez użytkownika zaproponować nowe strony, które mogą go również zainteresować. –Priorytetowanie dokumentów , zaliczenie dokumentu do kategorii ważności. W przypadku filtrowania mamy zazwyczaj do czynienia z klasyfikacją dokumentu do jednej z dwu kategorii: odpowiadający tematowi – nieodpowiedni, użyteczny – spam, relewantny – nierelewantny, itp.

Klasyfikacja dokumentów Katalogowanie Kolejnym z typowych zastosowań klasyfikacji dokumentów są katalogi tematyczne. –Klasyczna metoda porządkowania informacji pod kątem tematycznym. Tradycyjnie proces katalogowania wykonywany jest przez ludzi. –Dobre wyniki jeśli wykonują to eksperci. –Model mentalny struktury katalogu eksperta nie zawsze musi być zgodny z modelem użytkownika. –Problemy spójności przy większej grupie ekspertów. –Podejście trudne i drogie w skalowaniu. Obecnie coraz częściej skalowalność staje się problemem. –Katalogi elektroniczne mogą przechowywać informacje nawet o dziesiątkach albo setkach tysięcy ofert produktów. –Konieczność oceny dokumentu przez człowieka i zakwalifikowania go do określonej kategorii staje się często wąskim gardłem, opóźniającym dostarczenie aktualnej informacji o zawartości katalogu.

Klasyfikacja dokumentów Katalogowanie Zastosowanie systemów automatycznej klasyfikacji może być rozwiązaniem problemu skalowalności. –Klasyfikacja automatyczna pozwala również na zachowanie pewnego obiektywizmu w przydziale produktów do kategorii. Typowe aplikacje –Katalogi biblioteczne, webowe (np. Yahoo), katalogi produktów itp. –Klasyfikacja tematyczna dokumentów mailowych, wiadomości, itp. –Wizualizacja i przeglądanie struktury tematycznej bazy dokumentów. W procesie katalogowania dokument zaliczany jest zazwyczaj do jednej z kilku – kilkudziesięciu kategorii tematycznych.

Klasyfikacja dokumentów Indeksowanie i modyfikacja zapytań Kolejny typ zastosowań związany jest z ujednoznacznianiem słownictwa wykorzystywanego jednej strony do opisu dokumentu, z drugiej zaś do specyfikacji zapytania. –System klasyfikujący dokonuje klasyfikacji dokumentu na podstawie jego opisu w warstwie leksykalnej (np. słów zawartych w dokumencie) do zbioru jednoznacznych termów słownika kontrolowanego (pojęć). –Równolegle do tej samej przestrzeni jednoznacznych termów klasyfikowane są wykonywane w systemie wyszukiwawczym zapytania. –Wyszukiwanie odbywa się poprzez wyznaczenie podobieństwa zapytania do dokumentów w przestrzeni pojęć. Wymiar przestrzeni kategorii C, do których klasyfikowane są dokument i zapytanie, zazwyczaj jest w przypadku tego zadania bardzo duży, rzędu kilkuset – kilku tysięcy kategorii.

Klasyfikacja dokumentów Klasyfikacja oparta na historii wartość 11wartość 12...wartość 1nA wartość 21wartość 22...wartość 2nB... wartość t1wartość t2...wartość tnA Nowy dokument wartość 1...wartość n Analiza danych historycznych Klasyfikacja (np. A) Analiza danych historycznych powtarzana jest dla każdego nowo klasyfikowanego dokumentu

Klasyfikacja dokumentów Klasyfikacja oparta na modelu wartość 11wartość 12...wartość 1nA wartość 21wartość 22...wartość 2nB... wartość t1wartość t2...wartość tnA Nowy dokument wartość 1...wartość n Uczenie Dane historyczne analizowane są w trakcie uczenia modelu. Podczas klasyfikacji przeliczany jest tylko model Model Dane wejściowe modelu Klasyfikacja (np. A)

Klasyfikacja dokumentów Metoda najbliższego sąsiada Klasyfikatory metodą najbliższych sąsiadów są typowymi przykładami klasyfikacji opartej na historii. –Nie ma fazy uczenia modelu. Klasyfikacja opiera się na wykorzystaniu zbioru treningowego przykładów D. Dla danego dokumentu d: –Obliczamy podobieństwo d do każdego z przykładów ze zbioru treningowego D. –Przypisujemy d kategorię do której należał najbardziej podobny przykład ze zbioru D. Wykorzystanie w procesie klasyfikacji wyłącznie najbliższego egzemplarza przykładowego może powodować błędy: –Powodowane przez pojedyncze nietypowe przykłady. –Powodowane przez szum, tj. błędy w przypisaniu kategorii niektórym egzemplarzom przykładowym.

Klasyfikacja dokumentów Metoda najbliższego sąsiada Government Science Arts

Klasyfikacja dokumentów Metoda k najbliższych sąsiadów (kNN) Dla danego dokumentu d: –Obliczamy podobieństwo d do każdego z przykładów ze zbioru treningowego D. –Wyszukujemy następnie k najbardziej podobnych przykładów treningowych (stąd nazwa k najbliższych sąsiadów) i analizujemy kategorie do których one należą. –Nowemu dokumentowi d przypisujemy kategorię reprezentowaną przez większość z tych k wybranych przykładów. –Alternatywnie możemy przedstawić wynik klasyfikacji jako rozkład prawdopodobieństwa P(c|d) = i/k gdzie i jest liczbą spośród k przykładów należących co klasy c. Wartość k dobierana jest dla konkretnego przypadku. Najczęściej, aby uniknąć remisów wybiera się 3 lub 5.

Klasyfikacja dokumentów Metoda k najbliższych sąsiadów (kNN) Government Science Arts

Klasyfikacja dokumentów Metoda k najbliższych sąsiadów (kNN) Miary podobieństwa (lub odległości): –Dla ciągłych wielowymiarowych przestrzeni najprostszym wyborem jest euklidesowa miara odległości. –Dla wielowymiarowych przestrzeni binarnych najprostszym wyborem jest miara odległości Hamminga (liczba wartości cech, które się pokrywają). –W przypadku tekstów najczęściej stosowana jest miara podobieństwa cosinusów i wagi tf*idf. kNN i indeksy odwrotne. –Określenie k najbliższych sąsiadów polega na tum samym co znalezienie k dokumentów najbliższych do zapytania. –Najprościej więc wykorzystać do tego standardowe metody przetwarzania zapytania w indeksie odwrotnym dla modelu wektorowego.

Klasyfikacja dokumentów Metoda k najbliższych sąsiadów (kNN) Blaster Czarna dziura Grawitacja Gwiazda Indianie Kosmos Kowboj Nadprzestrzeń Obserwacja Planeta Podróż Rewolwerowiec Teleskop Kategoria A C C B A B A B C B C A A - SF B – Astronomia C - Western ,61 20,41 10,18 30,50 40,73 40,67 40,73 30,55 10,18 40, ,50 A - SF

Klasyfikacja dokumentów Naiwny klasyfikator Bayesowski Twierdzenie Bayesa Naiwny klasyfikator Bayesowski jest przykładem klasyfikacji opartej na modelu. W klasyfikatorach Bayesowskich tworzymy model, który dla danego wzorca x, opisującego dany dokument stara się oszacować prawdopodobieństwo Pr(C/x), przynależności tego wzorca do określonej klasy C. Bezpośrednie oszacowanie Pr(C/x) jest trudne, ponieważ x jest wektorem o wielu wymiarach. Aby oszacować rozkład prawdopodobieństwa w wielowymiarowej przestrzeni, niezbędne są olbrzymie ilości danych, pokrywające całą rozważaną przestrzeń.

Klasyfikacja dokumentów Naiwny klasyfikator Bayesowski W naiwnym klasyfikatorze Bayesowskim zakładamy, że poszczególne cechy opisujące produkt są niezależne. Dla zdarzeń niezależnych prawdopodobieństwo iloczynu zdarzeń równe jest iloczynowi ich prawdopodobieństw. Jest to założenie upraszczające. W praktyce np. różne słowa kluczowe w opisie dokumentu w dużej części będą od siebie zależne. Dlatego wyniki działania klasyfikatora naiwnego muszą być zawsze zweryfikowane empirycznie. Tym niemniej w praktycznych zastosowaniach model ten osiąga całkiem zadowalające wyniki. Jego prostota obliczeniowa i szybkość działania powoduje, że jest to jedno z najczęściej wykorzystywanych podejść do klasyfikacji dokumentów.

Klasyfikacja dokumentów Naiwny klasyfikator Bayesowski Prawdopodobieństwa występujące w tym modelu mogą być łatwo wyznaczone na podstawie arkusza danych, zawierającego informacje o słowach kluczowych w przykładowych wzorcach dokumentów: –Prawdopodobieństwo, że dla danej klasy C, słowo kluczowe x j występuje w opisie dokumentu Pr(x j =1/C) = liczba_dok(x j =1, C) / liczba_dok(C). –Prawdopodobieństwo, że dla danej klasy C, słowo kluczowe x j nie występuje w opisie dokumentu Pr(x j =0/C) = 1 – Pr(x j =1/C). –Prawdopodobieństwo Pr(C) = liczba_dok(C) / liczba dokumentów. –Ponieważ chcemy porównywać prawdopodobieństwa Pr(C/x) dla kolejnych klas C, więc Pr(x) jako takie samo dla wszystkich klas możemy pominąć. Możemy je również policzyć ze wzoru na prawdopodobieństwo całkowite:

Klasyfikacja dokumentów Naiwny klasyfikator Bayesowski Blaster Czarna dziura Grawitacja Gwiazda Indianie Kosmos Kowboj Nadprzestrzeń Obserwacja Planeta Podróż Rewolwerowiec Teleskop Kategoria A C C B A B A B C B C A A - SF B – Astronomia C - Western A B C

Klasyfikacja dokumentów Naiwny klasyfikator Bayesowski Blaster Czarna dziura Grawitacja Gwiazda Indianie Kosmos Kowboj Nadprzestrzeń Obserwacja Planeta Podróż Rewolwerowiec Teleskop Kategoria A C C B A B A B C B C A A - SF B – Astronomia C - Western 0,750,50,250,750 0,250,75000,2500,50,33A 00,50, ,250,75 0,500,750,33B 000,250,50,750,250,7500,25 0,75 0,250,33C

Klasyfikacja dokumentów Naiwny klasyfikator Bayesowski Blaster Czarna dziura Grawitacja Gwiazda Indianie Kosmos Kowboj Nadprzestrzeń Obserwacja Planeta Podróż Rewolwerowiec Teleskop 0,750,50,250,750 0,250,75000,2500,50,33A 00,50, ,250,75 0,500,750,33B 000,250,50,750,250,7500,25 0,75 0,250,33C A - SF B – Astronomia C - Western Pr(A/x)=((1-0,75)*0,5*0,25*0,75*(1-0)*0,75*(1-0,25)*0,75*(1-0)*(1-0)*0,25* (1-0)*(1-0,5))*0,33 / Pr(x) = 0,00041 / Pr(x) Pr(B/x)=((1-0)*0,5*0,75*0,75*(1-0)*0,75*(1-0)*0,25*(1-0,75)*(1-0,75)*0,5*(1-0)* (1-0,75))*0,33 / Pr(x) = 0,00014 / Pr(x) Pr(C/x)=0*0,33 / Pr(x) = 0 / Pr(x) Pr(x) = 0, , = 0,00055 Pr(A/x)=0,75 Pr(B/x)=0,25 Pr(C/x)=0

Klasyfikacja dokumentów Naiwny Bayes – praktyczne korekty Wygładzenie prawdopodobieństw –Normalnie prawdopodobieństwa liczone są jako częstości Pr(x j =1/C) = liczba_dok(x j =1, C) / liczba_dok(C). –Jednakże takie oszacowanie może być silnie obciążone dla małych prób, a zwłaszcza w przypadku termów o niskiej częstości dokumentu df. –Jeśli rzadki term t nie występuje akurat w zbiorze dokumentów treningowych, to Pr(t=1/C) = 0. Jeśli wystąpi on następnie w opisie dokumentu, to Pr(C/x) = 0 dla każdej klasy niezależnie od innych termów (bo mnożenie przez 0 daje 0). –Dlatego aby uwzględnić kwestię występowania rzadkich termów, zazwyczaj stosuje się tzw. wygładzanie Laplacea oszacowań prawdopodobieństw: Pr(x j =1/C) = (liczba_dok(x j =1, C) +1) / (liczba_dok(C)+k). gdzie k jest liczbą kategorii wartości cechy x j (dla binarnych k=2). Mnożenie prawdopodobieństw, które są małymi liczbami (między 0 i 1) może skutkować błędami zmiennopozycyjnymi. –Podstawą klasyfikacji może być również log(Pr(C/x)), co pozwala zastąpić tę operację sumowaniem logarytmów prawdopodobieństw log(Pr(x j =1/C)).

Klasyfikacja dokumentów Inne typy modeli klasyfikacyjnych Klasyfikatory logiczne (drzewa (reguły) decyzyjne) –Wewnętrzne węzły odpowiadają poszczególnym termom. –Gałęzie odpowiadają różnym wartościom wag termów (zazwyczaj binarne). –Liście odpowiadają kategoriom. –Uzyskiwane zazwyczaj na drodze uczenia indukcyjnego drzew (np. algorytm C4.5). Sieci neuronowe. –Liniowe sieci perceptronowe. –Warstwowe perceptrony (MLP). –Sieci o bazie radialnej (RBF). –Support Vector Machines (SVM).