Przetwarzanie dokumentów tekstowych w systemie BEATCA

Slides:



Advertisements
Podobne prezentacje
SYSTEMY WYSZUKIWANIA INFORMACJI
Advertisements

Wprowadzenie do budowy usług informacyjnych
Informacji Geograficznej
Rafał Hryniów Tomasz Pieciukiewicz
Zadanie z dekompozycji
Algorytm Dijkstry (przykład)
Uczenie konkurencyjne.
Samoorganizacja: uczenie bez nadzoru.
Dynamiczna alokacja zadań w sieciach MESH
Zrównoleglanie programu sekwencyjnego
WPROWADZENIE DO BAZ DANYCH
CLUSTERING Metody grupowania danych Plan wykładu Wprowadzenie Dziedziny zastosowania Co to jest problem klastrowania? Problem wyszukiwania optymalnych.
WEDT Klasyfikacja i grupowanie dokumentów
WYKŁAD 7. Spójność i rozpięte drzewa
Próba eksperymentalnej oceny metody PROBE
Ulepszenia metody Eigenfaces
Rozpoznawanie Twarzy i Systemy Biometryczne, 2005/2006
Rozpoznawanie Twarzy i Systemy Biometryczne, 2005/2006
WekaSQL Język i aplikacja przetwarzania oraz eksploracji danych.
Co to jest studium przypadku?
Algorytm Rochio’a.
Wprowadzenie do budowy usług informacyjnych
Promotor: dr inż. Leszek Koszałka Autor: Markuszewski Kamil
Eksperymentalna ocena jakości rozpoznawania
Klasyfikacja Obcinanie drzewa Naiwny klasyfikator Bayes’a kNN
Odkrywanie wzorców sekwencji
Grupowanie Wprowadzanie Definicja problemu
GeoTrackerPast Web tracking in 4 dimensions. Informacje Temat: System wyszukiwania haseł w Internecie(?) Promotor: dr Mikołaj Morzy Skład: – Tomasz Szymanowski.
Ukryte indeksowanie semantyczne SVD Struktury danych
Linear Methods of Classification
Additive Models, Trees, and Related Methods
Komputerowa analiza sieci genowych (GRN)
Komputerowa analiza sieci genowych (GRN)
Komputerowa analiza sieci genowych (GRN) Agnieszka Marmołowska Jacek Ławrynowicz Promotor: prof. Krzysztof Giaro.
FP-Growth Adam Pieśkiewicz Kamil Niezręcki Krzysztof Grześkowiak
Klasyfikacja dokumentów za pomocą sieci radialnych Paweł Rokoszny Emil Hornung Michał Ziober Tomasz Bilski.
Klasyfikacja dokumentów za pomocą sieci radialnych
Klasyfikacja dokumentów za pomocą sieci radialnych Paweł Rokoszny Emil Hornung Michał Ziober Tomasz Bilski.
FP-Growth Adam Pieśkiewicz Kamil Niezręcki Krzysztof Grześkowiak Michał Kucal
FP-Growth Adam Pieśkiewicz Kamil Niezręcki Krzysztof Grześkowiak Michał Kucal
WYKŁAD 7. Spójność i rozpięte drzewa Graf jest spójny, gdy dla każdego podziału V na dwa rozłączne podzbiory A i B istnieje krawędź z A do B. Definicja.
MECHANIKA NIEBA WYKŁAD r.
formalnie: Uczenie nienadzorowane
Detekcja twarzy w obrazach cyfrowych
Techniki eksploracji danych
(okres realizacji XI XI.2005
Systemy wspomagania decyzji
XML – eXtensible Markup Language
Wybrane zagadnienia relacyjnych baz danych
Adaptacyjność a skalowalność map dokumentów M.A. Kłopotek, S.T.Wierzchoń, K.Ciesielski, M.Dramiński, D.Czerski Instytut Podstaw Informatyki Polskiej Akademii.
ZWIĄZKI MIĘDZY KLASAMI KLASY ABSTRAKCYJNE OGRANICZENIA INTERFEJSY SZABLONY safa Michał Telus.
SYSTEMY EKSPERTOWE I SZTUCZNA INTELIGENCJA
VI EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja
VII EKSPLORACJA DANYCH
IV EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja
Seminarium licencjackie Beata Kapuścińska
Algorytmy i Struktury Danych
4 lipca 2015 godz pok września 2015 godz pok. 212.
Warstwowe sieci jednokierunkowe – perceptrony wielowarstwowe
© Kazimierz Duzinkiewicz, dr hab. inż. Katedra Inżynierii Systemów Sterowania Modelowanie i podstawy identyfikacji 2015/2016 Modele neuronowe – podstawy,
Metody Inteligencji Obliczeniowej Adrian Horzyk Adrian Horzyk Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii.
Temat: Tworzenie bazy danych
STATYSTYKA – kurs podstawowy wykład 8 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.
1.problem próbkowania (sampling problem) dobór charakterystycznych punktów powierzchni w celu uzyskania najlepszego efektu przy minimalizacji ilości danych.
T. 18. E Proces DGA - Działania (operatorka).
Systemy neuronowo – rozmyte
Projektowanie wspomagane komputerem
Efektywność algorytmów
Co do tej pory robiliśmy:
Regresja wieloraka – bada wpływ wielu zmiennych objaśniających (niezależnych) na jedną zmienną objaśnianą (zależą)
Zapis prezentacji:

Przetwarzanie dokumentów tekstowych w systemie BEATCA Michał Dramiński Krzysztof Ciesielski Instytut Podstaw Informatyki PAN

BEATCA: przetwarzanie dokumentów tekstowych IPI PAN 31.01.2005 BEATCA: przetwarzanie dokumentów tekstowych Agenda Cel i motywacja projektu BEATCA Architektura systemu Wstępne przetwarzanie dokumentów Pojęcie mapy dokumentu Inicjalizacja tematyczna mapy Wyniki niektórych eksperymentów Prezentacja systemu

BEATCA: przetwarzanie dokumentów tekstowych IPI PAN 31.01.2005 BEATCA: przetwarzanie dokumentów tekstowych Cel i motywacja Celem projektu jest stworzenie narzędzia do wspomagania eksploracji baz dokumentów tekstowych poprzez generowanie nawigowalnych map, na których odległość geometryczna odzwierciedla odległość konceptualną dokumentów, zaś trzeci wymiar odzwierciedla rozkład gęstości dokumentów. Specyfika analizowanych danych: Bardzo duża liczba obserwacji oraz wymiar przestrzeni. Dokumenty są połączone linkami (związki semantyczne). Zmienność danych w czasie (modyfikowane, usuwane, dodawane) Trudności ze zdefiniowaniem obiektywnej miary jakości wyników. Szum w dancyh (np. grupy dyskusyjne) Fizyczne rozproszenie danych.

Architektura systemu BEATCA IPI PAN 31.01.2005 BEATCA: przetwarzanie dokumentów tekstowych Architektura systemu BEATCA Architektura umożliwia wielofazowe przetwarzanie dokumentów tekstowych, jak również porównywanie poszczególnych metod tworzenia map, ich wizualizacji, tematycznego grupowania oraz etykietowania. Pająk ściąga dokumenty z Internetu na lokalny komputer Indekser wstępnie przetwarza dokumenty na postać wektorową. Moduł optymalizacji słownika ocenia termy pod względem dalszej przydatności Moduł wstępnego grupowania selekcjonuje termy potrzebne do inicjalizacji mapera. Maper tworzy etykietowaną mapę (lub mapy) dla zbioru dokumentów. Wyszukiwarka w odpowiedzi na zapytanie użytkownika prezentuje najlepszą (wedle pewnej miary podobieństwa do kwerendy) mapę oraz wskazuje szukane regiony.

Architektura systemu BEATCA IPI PAN 31.01.2005 BEATCA: przetwarzanie dokumentów tekstowych Architektura systemu BEATCA

BEATCA: przetwarzanie dokumentów tekstowych IPI PAN 31.01.2005 BEATCA: przetwarzanie dokumentów tekstowych Indexer Usuwa tagi HTML z dokumentów (jeśli trzeba). Rozpoznaje język dokumentów (polski, angielski, niemiecki). Usuwa „stop words”. Ekstrahuje pojedyncze słowa. Stemuje słowa i zapamiętuje ich formę bazową. Buduje słownik termów. Oblicza częstotliwość wystąpień każdego słowa. Zapisuje potrzebne informacje do bazy danych. Potrafi budować w locie streszczenia dokumentów. Wyszukuje częste frazy.

BEATCA: przetwarzanie dokumentów tekstowych IPI PAN 31.01.2005 BEATCA: przetwarzanie dokumentów tekstowych Rozpoznawanie języka Dla n (domyślnie 20) pierwszych słów z dokumentów zliczana jest liczba wystąpień charakterystycznych znaków dla danego języka. Zliczane z tą samą wagą są wystąpienia stop words dla każdego języka. Decyzja opiera się na wyborze języka, dla którego zanotowano największą wartość wystąpień wspomnianych przypadków.

BEATCA: przetwarzanie dokumentów tekstowych IPI PAN 31.01.2005 BEATCA: przetwarzanie dokumentów tekstowych Stop words Częste termy charakterystyczne dla danego języka nie wnoszące informacji o rozkładzie stałym niezależnym od treści. Angielska lista „stop words”. http://www.engin.umich.edu/caen/wls/software/oracle/text.901/a90121/astopsu2.htm Niemiecka lista „stop words”. http://www.engin.umich.edu/caen/wls/software/oracle/text.901/a90121/astopsu7.htm An implementation of Finite State Automatons in Java, Dawid Weiss http://www.cs.put.poznan.pl/dweiss/xml/projects/fsa/index.xml?lang=en

BEATCA: przetwarzanie dokumentów tekstowych IPI PAN 31.01.2005 BEATCA: przetwarzanie dokumentów tekstowych Stemer Jednoznacznie odwzorowuje różne formy tego samego słowa w ciąg znaków (termy) An implementation of Finite State Automatons in Java, Jan Daciuk http://www.eti.pg.gda.pl/~jandac/fsa.html http://www.cs.waikato.ac.nz/~eibe/stemmers/, lovins stemmer developed by Eibe Frank Algorytm Porter z projektu Lucene A Fast and Simple Stemming Algorithm for German Words, Jorg Caumanns (developed by Gerhard Schwarz, http://www.apache.org/)

Znajdowanie częstych fraz IPI PAN 31.01.2005 BEATCA: przetwarzanie dokumentów tekstowych Znajdowanie częstych fraz Po zaindeksowaniu zbioru dokumentów wybieramy n (u nas domyślnie 300) termów najczęstszych. Częste frazy muszą się składać z częstych termów a maksymalna częstość frazy może być równa minimalnej częstości jednego z dwóch termów. Skanujemy zbiór dokumentów po raz drugi szukając kolejnych po sobie wystąpień wytypowanych termów. Ignorujemy wystąpienia dowolnej liczby stop words miedzy szukanymi termami.

Częste frazy - przykład IPI PAN 31.01.2005 BEATCA: przetwarzanie dokumentów tekstowych Częste frazy - przykład Zbiór Syskill & Webert Zbiór 20Yahoo Newsgroups

Redukcja rozmiaru słownika IPI PAN 31.01.2005 BEATCA: przetwarzanie dokumentów tekstowych Redukcja rozmiaru słownika Dla każdego termu liczymy miarę jakości: Termy które przyjmują wartości skrajne dla Q1 poniżej minTres (0.01) i powyżej maxTres(0.95) są ignorowane podczas wstępnego grupowania dokumentów i budowania mapy.

Redukcja rozmiaru słownika cd. IPI PAN 31.01.2005 BEATCA: przetwarzanie dokumentów tekstowych Redukcja rozmiaru słownika cd. Gdzie: ft,d jest liczbą wystąpień termu t w dokumencie d. Nt jest liczbą dokumentów zawierających term t. N oznacza liczbę wszystkich dokumentów. Nt / N oznacza ułamek dokumentów zawierających term. Wartości skrajne dla pierwszej miary zostały wybrane arbitralnie na podstawie eksperymentów. minTres = 0.01 maxTres = 0.95

Streszczenia dokumentów IPI PAN 31.01.2005 BEATCA: przetwarzanie dokumentów tekstowych Streszczenia dokumentów Streszczenia dynamiczne odpowiadające zapytaniu użytkownika. Ekstrakcja zdań z dokumentów (‘.’ lub ‘!’ lub ‘?’). Etap ważenia zdań – każde zdanie jest oceniane. Prezentowanie (n) zdań ocenionych najwyżej w kolejności takiej jak w tekście.

Streszczenia dokumentów - miara IPI PAN 31.01.2005 BEATCA: przetwarzanie dokumentów tekstowych Streszczenia dokumentów - miara Zapytanie użytkownika składające się ze zbioru słów przekształcane jest przez indekser na zbiór termów {t1, t2, ... , tn} Dla każdego {t1, t2, ... , tn} liczymy {f1, f2, ... , fn} Dla każdego zdania liczymy miarę i=entropy+intensity+size

Przykłady streszczeń – sleeping disorder IPI PAN 31.01.2005 BEATCA: przetwarzanie dokumentów tekstowych Przykłady streszczeń – sleeping disorder Each year, there are about 40 million people in the United States who suffer from sleeping disorders. Recent research suggests that if sleep deprivation is long-term - whether because of lifestyle choices or sleep disorders - it may increase the severity of age-related chronic disorders such as diabetes and high blood pressure. director of the National Center on Sleep Disorders Research, part of the National Heart, Lung, and Blood Institute.

Przykłady streszczeń – wool production IPI PAN 31.01.2005 BEATCA: przetwarzanie dokumentów tekstowych Przykłady streszczeń – wool production Wool Manufacturing: Shear Pain Many people believe that shearing sheep helps animals who might otherwise be burdened with too much wool. The ultimate cruelty is the live export of seven million sheep every year from Australia to the Middle East, which the Wool Council of Australia supports as "an important component of the wool and sheep industry. There are Alternatives There are alternatives to wool clothes and blankets that the many people who are allergic to wool already use, including cotton, cotton flannel, polyester fleece, and other man-made fibers.

Interfejs systemu BEATCA IPI PAN 31.01.2005 BEATCA: przetwarzanie dokumentów tekstowych Interfejs systemu BEATCA Odpowiedź na kwerendę użytkownika prezentowana jest na mapie, z zaznaczonymi komórkami zawierającymi istotne dokumenty. Mapa jest etykietowana, wyróżnione są na niej także brzegi obszarów tematycznych. Lista dokumentów zawiera dynamicznie generowane streszczenia (query-related). Mapa może mieć jedną z następujących postaci: tradycyjna płaska (komórki kwadratowe lub sześciokątne) obracająca się mapa 3D (torus, kula, cylinder) wizualizacja modelu opartego na gazie neuronowym (GNG-U) mapa hiperboliczna (projekcje Poincarrego lub Kleina)

Interfejs systemu BEATCA IPI PAN 31.01.2005 BEATCA: przetwarzanie dokumentów tekstowych Interfejs systemu BEATCA Lista dokumentów ze streszczeniami Wybrana komórka Wybrana mapa Zapytanie Lista map

Trójwymiarowe wizualizacje map IPI PAN 31.01.2005 BEATCA: przetwarzanie dokumentów tekstowych Trójwymiarowe wizualizacje map

Etapy tworzenia mapy Zbiór dokumentów Punkty w przestrzeni dokumentów IPI PAN 31.01.2005 BEATCA: przetwarzanie dokumentów tekstowych Etapy tworzenia mapy Zbiór dokumentów Punkty w przestrzeni dokumentów Grupy w przestrzeni dokumentów Mapa dokumentów

Relacja pomiędzy dokumentami IPI PAN 31.01.2005 BEATCA: przetwarzanie dokumentów tekstowych Relacja pomiędzy dokumentami cytowanie w bibliografii odnośnik łączący dokumenty hipertekstowe podobieństwo treści dokumentów podejście łączone

Model wektorowy dla dokumentów IPI PAN 31.01.2005 BEATCA: przetwarzanie dokumentów tekstowych Model wektorowy dla dokumentów dog food walk Query: walk My dog likes this food When walking, I take some food dokument jest punktem w przestrzeni rozpiętej przez termy współrzędne są funkcjami częstości poszczególnych termów podobieństwo dokumentów mierzy się kosinusem kąta między reprezentującymi je wektorami podobieństwo dokumentu do danej kwerendy - kwerendę traktujemy jak dokument zawierający treść zapytania

BEATCA: przetwarzanie dokumentów tekstowych IPI PAN 31.01.2005 BEATCA: przetwarzanie dokumentów tekstowych Waga termu Standardowa waga TFxIDF: Waga znormalizowana: Możliwe inne normalizacje (zwłaszcza względem ilości termów występujących w dokumencie)

Mapa i odwzorowanie Kohonena IPI PAN 31.01.2005 BEATCA: przetwarzanie dokumentów tekstowych Mapa i odwzorowanie Kohonena Kohonen (1995) przedstawił model uczony w warunkach konkurencji: SOM (Self Organizing Map) SOM to sieć neuronowa do nienadzorowanego grupowania danych neurony (komórki) są zorganizowane w siatkę (zwykle 2D) komórki mogą być kolorowane i etykietowane (tzw. 2,5D mapa) każda komórka ma przypisany wektor referencyjny o wymiarze równym wymiarowi przestrzeni danych komórki leżące w swoim sąsiedztwie opisują grupy danych o podobnych własnościach (bliskość na mapie = bliskość w przestrzeni danych) istotna różnica w porównaniu z tradycyjnym grupowaniem: nie tylko obiekty w obrębie grupy są podobne, podobne są również grupy sąsiadujące na mapie

Algorytm Kohonena dla dokumentów IPI PAN 31.01.2005 BEATCA: przetwarzanie dokumentów tekstowych Algorytm Kohonena dla dokumentów wartością współrzędnej wektora referencyjnego jest waga dla termu lub frazy (np. znormalizowana waga TFxIDF) miara podobieństwa: kosinus kąta między wektorami aktualizowana jest komórka zwycięska (najbardziej podobna do kolejnego, losowo prezentowanego, dokumentu) oraz komórki sąsiednie iteracyjna regresja wektorów referencyjnych:

BEATCA: przetwarzanie dokumentów tekstowych IPI PAN 31.01.2005 BEATCA: przetwarzanie dokumentów tekstowych Nasze modyfikacje Redukcja rozmiaru słownika oraz optymalizacja reprezentacji wektorów referencyjnych Łączona metoda szukania zwycięzcy Mapy wielopoziomowe Wielofazowe grupowanie: wstępne grupowanie dokumentów identyfikacja głównych tematów na mapie WebSOM dla grup dokumentów rozmyte grupowanie komórek WebSOM i ich etykietowanie Inicjalizacja ogólnymi tematami Modele oparte na uczeniu gazu neuronowego

BEATCA: przetwarzanie dokumentów tekstowych IPI PAN 31.01.2005 BEATCA: przetwarzanie dokumentów tekstowych Mapy hierarchiczne zastosowaliśmy podejście „bottom-up”: oblicz najbardziej szczegółową mapę oblicz ważone centroidy obszarów mapy użyj ich jako ziaren dla mapy ogólniejszej uczymy tylko jedną, dużą mapę - efektywne (zwłaszcza przy łączonej metodzie szukania zwycięzcy) możliwe jest także podejście „top-down” ale wymaga określenia punktów stałych na mapie

BEATCA: przetwarzanie dokumentów tekstowych IPI PAN 31.01.2005 BEATCA: przetwarzanie dokumentów tekstowych Klasteryzacja grup dokumentów Rozmyta klasteryzacja (algorytm C-MEANS) na wektorach referencyjnych: Podejście grafowe: drzewo rozpinające dla kraty komórek na mapie; krawędzie ważone odległościami oraz gęstością komórek Klasyczne metody okazały się być zawodne: skrajnie rozmyta struktura tematyczna komórek SOM konieczność zachowania podobieństwa zarówno w oryginalnej przestrzeni dokumentów jak i na mapie (spójność obszarów na mapie) problem „outlierów” (niepasujących dokumentów) liczba grup tematycznych nie jest znana a priori Podejście łączące rozmytą klasteryzację oraz drzewa rozpinające: dla pewnej „dużej” liczby klastrów oblicz rozmyte centroidy zbuduj drzewo rozpinające dla znalezionych centroidów usuń krawędzie o „lokalnie niepasujących” wagach obszary tematyczne to uzyskane spójne składowe grafu Inicjalizacja tematyczna mapy poprawia jakość obszarów

Inicjalizacja ogólnymi tematami IPI PAN 31.01.2005 BEATCA: przetwarzanie dokumentów tekstowych Inicjalizacja ogólnymi tematami Podobieństwo pomiędzy tematami wpływa zarówno na proces uczenia i wizualizację mapy, jak i identyfikację obszarów tematycznych (grup podobnych komórek) Inicjalizacja tematyczna jest bardziej stabilna niż inicjalizacja losowa. Schemat: wybór K (3-4) równomiernie rozłożonych punktów na mapie jako tzw. „punktów stałych” (fixpoints) poszczególnych tematów inicjalizacja wektorów referencyjnych w punktach stałych tematami głównymi (wybór termów charakteryzujących grupy) inicjalizacja pozostałych komórek wektorami „pośrednimi”:

Wstępne grupowanie dokumentów IPI PAN 31.01.2005 BEATCA: przetwarzanie dokumentów tekstowych Wstępne grupowanie dokumentów Służy do wyboru termów wykorzystywanych do inicjalizacji wektorów referencyjnych Domyślnie dzielimy zbiór dokumentów na cztery grupy Zastosowane metody: rozkład SVD algorytm EM (Expectation Maximization) kombinowany z naiwnym klasyfikatorem bayesowskim algorytm EM kombinowany z metodą PLSA algorytm EM kombinowany z siecią bayesowską (drzewo Chow Liu zbudowane na podstawie ETC)

BEATCA: przetwarzanie dokumentów tekstowych IPI PAN 31.01.2005 BEATCA: przetwarzanie dokumentów tekstowych Rozkład SVD rozkład SVD (Singular Value Decomposition, aka Latent Semantic Indexing) identyfikuje lewostronne wektory własne macierzy term-dokument, reprezentujących ortogonalne kierunki (abstrakcyjne tematy) w przestrzeni termów

BEATCA: przetwarzanie dokumentów tekstowych IPI PAN 31.01.2005 BEATCA: przetwarzanie dokumentów tekstowych Algorytm EM – krok 0 EM - Expectation Maximization (Dempster 1977)

BEATCA: przetwarzanie dokumentów tekstowych IPI PAN 31.01.2005 BEATCA: przetwarzanie dokumentów tekstowych Algorytm EM - krok 1

BEATCA: przetwarzanie dokumentów tekstowych IPI PAN 31.01.2005 BEATCA: przetwarzanie dokumentów tekstowych Algorytm EM - krok 2

Naiwny klasyfikator bayesowski IPI PAN 31.01.2005 BEATCA: przetwarzanie dokumentów tekstowych Naiwny klasyfikator bayesowski Zakłada niezależność (względem siebie) występowania termów/atrybutów a w dokumencie. Bierze pod uwagę tylko wystąpienie termu. Załóżmy że dokument x'  X,  oznacza pewien rozkład prawdopodobieństwa, a g reprezentuje wartość c ‘clustra’. W fazie E liczymy: W fazie M liczymy:

BEATCA: przetwarzanie dokumentów tekstowych IPI PAN 31.01.2005 BEATCA: przetwarzanie dokumentów tekstowych Metoda PLSA PLSA - Probabilistic Latent Semantic Analysis (Hofmann, 1999) Zakłada niezależność (względem siebie) występowania termów/atrybutów a w dokumencie. Pojedynczy dokument dj może należeć w różnym stopniu do różnych grup (grupowanie nierozłączne). Bierze pod uwagę liczność termów w dokumencie. Problem z uzyskaniem satysfakcjonującego wyniku.

BEATCA: przetwarzanie dokumentów tekstowych IPI PAN 31.01.2005 BEATCA: przetwarzanie dokumentów tekstowych Sieć bayesowska Reprezentuje zależności pomiędzy poszczególnymi atrybutami w postaci tablicy prawdopodobieństw Przechowujemy prawdopodobieństwa warunkowe wystąpienia/niewystąpienia termu pod warunkiem wystąpienia/niewystąpienia rodzica

BEATCA: przetwarzanie dokumentów tekstowych IPI PAN 31.01.2005 BEATCA: przetwarzanie dokumentów tekstowych Algorytm ETC Budujemy drzewo krawędzi ETC Szybki algorytm budowy drzewa [M. Kłopotek] Przekształamy na drzewo Chow-Liu

Finalny wybór termów – metoda 1 IPI PAN 31.01.2005 BEATCA: przetwarzanie dokumentów tekstowych Finalny wybór termów – metoda 1 Wybieramy termy charakterystyczne dla każdej z grup. Gdzie: Nij=Freq(ti,dj) jest liczbą wystąpień ti w dokumencie dj. Indeks g oznacza termy w danej grupie. |Dti,g| to liczba dokumentów w grupie zawierających ti. |Dg| to liczba dokumentów w grupie. Do opisu każdej grupy wybieramy termy o najwyższym τ. Term jest zawsze przypisywany tylko do jednej grupy dla której jego τ jest największe.

Finalny wybór termów – metoda 2 IPI PAN 31.01.2005 BEATCA: przetwarzanie dokumentów tekstowych Finalny wybór termów – metoda 2 Oparta na entropii nieznormalizowanej. Dla każdego termu w każdej grupie zliczamy liczności dokumentów w których dany term występuje. Wybieram n termów dla każdej grupy o najniższym e.

Przykładowe tematy - Yahoo groups IPI PAN 31.01.2005 BEATCA: przetwarzanie dokumentów tekstowych Przykładowe tematy - Yahoo groups # topic terms 1 "bbc news" "cancer diabetes" "reservados" "privacidad" "contenido" 2 "traveler" "professional" "recontouring" "mouthguards" "pharyngitis" 3 "topics drug" "access select" "medlineplus health" "news directory" "privacy accessibility" 4 "naps" "bedtime" "awakened" "struggling" "afternoon"

Etykietowanie komórek mapy IPI PAN 31.01.2005 BEATCA: przetwarzanie dokumentów tekstowych Etykietowanie komórek mapy Komórki (grupy dokumentów) etykietowane są termami wybranymi na podstawie wektorów referencyjnych: wybierz k termów (współrzędnych) o największych wagach wśród nich - termy o najmniejszej wariancji wag w obrębie klastra Pogrupowane komórki (obszary na mapie) etykietowane są na podstawie ważonych centroidów wektorów referencyjnych oraz entropii międzygrupowej W ostatnim przypadku założenie jest analogiczne jak przy wyborze termów do tematycznej inicjalizacji wektorów referencyjnych: wybrać termy, które różnicują poszczególne obszary

Model gazu neuronowego (GNG-U) IPI PAN 31.01.2005 BEATCA: przetwarzanie dokumentów tekstowych Model gazu neuronowego (GNG-U) liczba komórek oraz połączenia między nimi są dynamicznie modyfikowane w trakcie uczenia dwie zwycięskie komórki są łączone krawędzią (o wieku 0) krawędzie „starzeją się” – krawędzie pomiędzy rzadko zwyciężającymi komórkami są usuwane z grafu interpolacja: pomiędzy komórkę o największym zakumulowanym błędzie oraz jej bezpośredniego sąsiada o największym błędzie wstawiana jest nowa komórka komórki o niskiej użyteczności (proporcjonalnej do zakumulowanego błędu) są usuwane z grafu wraz z krawędziami uzyskany graf nie musi być spójny – potrzeba nowej metody lokalnego poszukiwania zwycięskich komórek wizualizacja topologii grafu za pomocą mapy

BEATCA: przetwarzanie dokumentów tekstowych IPI PAN 31.01.2005 BEATCA: przetwarzanie dokumentów tekstowych

Wyniki eksperymentalne IPI PAN 31.01.2005 BEATCA: przetwarzanie dokumentów tekstowych Wyniki eksperymentalne eksperymenty przeprowadzono na podzbiorze zbioru 20 Yahoo Biomedical newsgroups (1697 dokumentów, ok. 35 MB danych): Birth Defects - 281 Cancers - 288 Dental Conditions - 285 Heart Diseases - 280 Sleep Disorders - 296 Sports Injuries - 265 badane czynniki: czas obliczeń a rozmiar mapy (liczba komórek) wpływ optymalizacji na mapy: metody redukcji słownika reprezentacja wektorów referencyjnych

Czas obliczeń a rozmiar mapy IPI PAN 31.01.2005 BEATCA: przetwarzanie dokumentów tekstowych Czas obliczeń a rozmiar mapy

Czas obliczeń a optymalizacje IPI PAN 31.01.2005 BEATCA: przetwarzanie dokumentów tekstowych Czas obliczeń a optymalizacje

Wpływ redukcji słownika na mapy IPI PAN 31.01.2005 BEATCA: przetwarzanie dokumentów tekstowych Wpływ redukcji słownika na mapy Założenia przy konstruowaniu miar jakości: usuwane termy są nieistotne z punktu widzenia różnicowania grup tematycznych w zbiorze dokumentów redukcja złożoności bez pogorszenia jakości Ocena jakości mapy: porównanie z mapą „idealną” (bez optymalizacji) identyczna inicjalizacja i parametry algorytmów miara: średniokwadratowa odległość pomiędzy lokacjami sklasyfikowanych dokumentów na obu mapach Dokumenty ze zbioru Yahoo Biomedical Newsgroups: Stemmer dictionary [all] [quality] phrases phrases [quality] - 49888 3895 9079 304 Porter 44573 3259 13498 354

BEATCA: przetwarzanie dokumentów tekstowych IPI PAN 31.01.2005 BEATCA: przetwarzanie dokumentów tekstowych Podsumowanie dwuwymiarowe, hierarchiczne mapy o elastycznej (dynamicznie modyfikowanej) topologii i rozmiarze (model łączący uczenie gazu neuronowego z funkcją użyteczności oraz mapy Kohonena) zmniejszenie złożoności czasowej oraz pamięciowej zadania poprzez: redukcję wymiaru przestrzeni termów wstępne tworzenie zwartych grup dokumentów tematyczną inicjalizację map (grupowanie bayesowskie, wektory własne w przestrzeni dokumentów) ekstrakcja obszarów tematycznych za pomocą metod łączących algorytmy grupowania nierozłącznego (fuzzy clustering) i metody teoriografowe (drzewa rozpinające) metody etykietowania klastrów oraz obszarów tematycznych

Czy mają Państwo pytania? IPI PAN 31.01.2005 BEATCA: przetwarzanie dokumentów tekstowych Dziękujemy za uwagę! Czy mają Państwo pytania?

BEATCA: przetwarzanie dokumentów tekstowych IPI PAN 31.01.2005 BEATCA: przetwarzanie dokumentów tekstowych Kierunki dalszych badań W przypadku zastosowań związanych z wyszukiwaniem informacji w sieci www konieczna jest dynamiczna aktualizacja modeli tworzonych na każdym etapie procesu przetwarzania danych Zaproponowane podejście, oparte na gazie neuronowym, stanowi pierwszy krok w kierunku w pełni adaptacyjnego grupowania i klasyfikacji dokumentów tekstowych W dalszej kolejności stworzone modele rozbudowane zostaną o podejście bayesowskie oraz grupowanie oparte na sztucznych systemach immunologicznych

Kierunki dalszych badań IPI PAN 31.01.2005 BEATCA: przetwarzanie dokumentów tekstowych Kierunki dalszych badań Zastosowania sieci bayesowskich: miara istotności dokumentu oparta na sieci (klasyfikator) wstępne grupowanie dokumentów tezaurus do uzupełniania kwered użytkownika ekstrakcja słów kluczowych szacowanie podobieństwa między tematami Zastosowania sztucznych systemów immunologicznych: adaptacyjna klasteryzacja (mechanizm metadynamiki) wydobywanie zwartych charakterystyk grup dokumentów (przeciwciała uniwersalne i specjalizowane) sterowanie rozdzielczością map przy ich wizualizacji

Kierunki dalszych badań IPI PAN 31.01.2005 BEATCA: przetwarzanie dokumentów tekstowych Kierunki dalszych badań modele łączne, uwzględniające podczas grupowania i wizualizacji zarówno treść dokumentów tekstowych jak i przepływ referencji (linków) pomiędzy nimi modele uwzględniające miary stabilizacji grup dokumentów (bezwładność masy, stemple czasowe znane z analizy strumieni danych) rozbudowa funkcjonalności pająka internetowego: wprowadzenie miary oceniającej istotność treści dokumentu (na potrzeby tworzenia map tematycznych) estymacja czasu aktualizacji treści w lokalnej bazie danych, w oparciu o statystyczne modele typu multiple-event survival analysis oraz modele „propagacji śmierci” (analogia PageRank)