Adaptacyjność a skalowalność map dokumentów M.A. Kłopotek, S.T.Wierzchoń, K.Ciesielski, M.Dramiński, D.Czerski Instytut Podstaw Informatyki Polskiej Akademii.

Slides:



Advertisements
Podobne prezentacje
Wprowadzenie do Data Miningu
Advertisements

Badania statystyczne Wykłady 1-2 © Leszek Smolarek.
Wprowadzenie do budowy usług informacyjnych
Inteligencja Obliczeniowa Metody oparte na podobieństwie do wzorców.
Zadanie z dekompozycji
Uczenie konkurencyjne.
Samoorganizacja: uczenie bez nadzoru.
Inteligencja Obliczeniowa Sieci o zmiennej strukturze.
TEORIA ALGORYTMÓW FUZZY LOGIC
WPROWADZENIE DO BAZ DANYCH
CLUSTERING Metody grupowania danych Plan wykładu Wprowadzenie Dziedziny zastosowania Co to jest problem klastrowania? Problem wyszukiwania optymalnych.
Ulepszenia metody Eigenfaces
Rozpoznawanie Twarzy i Systemy Biometryczne, 2005/2006
Klasyfikacja dokumentów tekstowych w oparciu o blogi
Zastosowanie programu SYBYL do wygładzania przybliżonych modeli białkowych SEKWENCJA AMINOKWASOWA MODELOWANIE METODĄ DYNAMIKI MONTE CARLO NA TRÓJWYMIAROWEJ.
Inteligencja Obliczeniowa Klasteryzacja i uczenie bez nadzoru.
Pamięć semantyczna Część pamięci długotrwałej, w której przechowuje się podstawowe znaczenie słów i pojęć.
Wprowadzenie do budowy usług informacyjnych
Promotor: dr inż. Leszek Koszałka Autor: Markuszewski Kamil
Metody Sztucznej Inteligencji w Sterowaniu 2009/2010Optymalizacja miary efektywności działania sztucznych sieci neuronowych Dr hab. inż. Kazimierz Duzinkiewicz,
EBSCOhost Nowe opcje. Ulepszenia tezaurusów i ich użycia.
Ukryte indeksowanie semantyczne SVD Struktury danych
Mirosław ŚWIERCZ Politechnika Białostocka, Wydział Elektryczny
Temat wystąpienia Optymalizacja Zarządzania Strukturą Oddziałową w Organizacjach Jolanta Cabaj.
Zastosowanie technologii CUDA w sztucznej inteligencji
Klasyfikacja dokumentów za pomocą sieci radialnych Paweł Rokoszny Emil Hornung Michał Ziober Tomasz Bilski.
Klasyfikacja dokumentów za pomocą sieci radialnych
Klasyfikacja dokumentów za pomocą sieci radialnych Paweł Rokoszny Emil Hornung Michał Ziober Tomasz Bilski.
Klasyfikacja dokumentów za pomocą sieci radialnych Paweł Rokoszny Emil Hornung Michał Ziober Tomasz Bilski.
Bibliotekarz – odkrywca. Agenda Proces tworzenia informacji Indeksy wyszukiwawcze Budowa rekordu w Promaxie Zapytania.
dr inż. Piotr Muryjas Wyższa Szkoła Przedsiębiorczości i Administracji
czyli jak analizować zmienność zjawiska w czasie?
Przetwarzanie dokumentów tekstowych w systemie BEATCA
Wanda Klenczon Biblioteka Narodowa
formalnie: Uczenie nienadzorowane
Detekcja twarzy w obrazach cyfrowych
Modelowanie populacji i przepływu opinii pomiędzy aktorami sztucznej inteligencji za pomocą sieci społecznej Wojciech Toman.
Techniki eksploracji danych
(okres realizacji XI XI.2005
Systemy wspomagania decyzji
Modelowanie i identyfikacja 2010/2011Optymalizacja miary efektywności działania sztucznych sieci neuronowych Dr hab. inż. Kazimierz Duzinkiewicz, Katedra.
Model I/O bazujący na HSWN Problem uczenia sieci HSWN
Dana jest sieć dystrybucji wody w postaci: Ø      m- węzłów,
Moduł: Informatyka w Zarządzaniu
1 Każdy obiekt jest scharakteryzowany poprzez: tożsamość – daje się jednoznacznie wyróżnić; stan; zachowanie. W analizie obiektowej podstawową strukturą
Bazy danych, sieci i systemy komputerowe
SYSTEMY EKSPERTOWE I SZTUCZNA INTELIGENCJA
SYSTEMY EKSPERTOWE I SZTUCZNA INTELIGENCJA
1. Współczesne generacje technologii
VI EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja
VII EKSPLORACJA DANYCH
Politechniki Poznańskiej
Jacek Wasilewski Politechnika Warszawska Instytut Elektroenergetyki
1. 2 Zarządzanie wiedzą i kwalifikacjami pracowników jako element procesu restrukturyzacji procesu restrukturyzacji Maciej Łukawski.
Wyszukiwanie informacji w internecie
Charakterystyka powszechnie stosowanych metod badawczych
Adaptacyjne Systemy Inteligentne Maciej Bielski, s4049.
Transfer Wiedzy w Leśnym Centrum Informacji dr inż. Dorota Farfał Sękocin Stary 5 grudnia 2011 r.
4 lipca 2015 godz pok września 2015 godz pok. 212.
Logical Framework Approach Metoda Macierzy Logicznej
Warstwowe sieci jednokierunkowe – perceptrony wielowarstwowe
Szkolenie realizowane w ramach projektu współfinansowanego przez UE z EFS: Kompleksowy system doskonalenia nauczycieli drogą do sukcesu szkół powiatu wołowskiego.
© Kazimierz Duzinkiewicz, dr hab. inż. Katedra Inżynierii Systemów Sterowania Modelowanie i podstawy identyfikacji 2015/2016 Modele neuronowe – podstawy,
GeneracjeTechnologia Architektura przetwarzania 0. Przekaźniki elektromechaniczne 1. Lampy elektronowe 2. Tranzystory 3. Układy scalone 3.5.Układy dużej.
Tytuł. Powstanie i cele firmy Firma Soft-Projekt powstała w 1991 roku założona przez mgr inż. Jana Szymańskiego, wieloletniego.
Systemy neuronowo – rozmyte
Optymalizacja SAS OLAP Studio
Co do tej pory robiliśmy:
Programowanie sieciowe Laboratorium 3
Modele baz danych - spojrzenie na poziom fizyczny
Zapis prezentacji:

Adaptacyjność a skalowalność map dokumentów M.A. Kłopotek, S.T.Wierzchoń, K.Ciesielski, M.Dramiński, D.Czerski Instytut Podstaw Informatyki Polskiej Akademii Nauk Zakopane,

Agenda Motywacja Charakterystyka nowej wyszukiwarki Architektura Interfejs użytkownika Pomiary jakości Eksperymenty Wyniki Wnioski

Motywacja Celem projektu było stworzenie narzędzia do wspomagania eksploracji baz dokumentów tekstowych poprzez generowanie nawigowalnych map, na których odległość geometryczna odzwierciedla odległość konceptualną dokumentów, zaś trzeci wymiar odzwierciedla rozkład gęstości dokumentów. Specyfika analizowanych danych: Bardzo duża liczba obserwacji oraz wymiar przestrzeni. Dokumenty są połączone linkami (związki semantyczne). Zmienność danych w czasie (modyfikowane, usuwane, dodawane) Trudności ze zdefiniowaniem obiektywnej miary jakości wyników. Szum w dancyh (np. grupy dyskusyjne)

BEATCA – nowa koncepcja wyszukiwarki o interfejsie mapowym osobiste narzędzie do wspomagania zadania eksploracji pełnotekstowych baz dokumentów nawigacyjne mapy dokumentów, na których bliskość geometryczna odzwierciedla bliskość koncepcyjną Do zadań miękkiej klasyfikacji dokumentów oraz do stworzenia grafu bliskości pojęć, będącego podstawą kreowania nieostrych miar bliskości dokumentów zastosowano sieci bayesowskie. Do poszukiwania optymalnej mapy dokumentów i ich grupowania stosowane są metody: samoorganizxujących się map Kohonnena sztucznych systemów immunologicznych wzrastającego gazu neuronowego

Zbiór dokumentów Punkty w przestrzeni dokumentów Grupy w przestrzeni dokumentów Mapa dokumentów Etapy tworzenia mapy

BEATCA – nowa koncepcja wyszukiwarki o interfejsie mapowym Nowa koncwepcja wyszukiwarki mapowej Pełen cykl przetwarzania miliona dokumentów - 48 godz. współistnienie wielu koncepcji map (SOM, GNG, Immunologiczne) współistnienie wielu koncepcji reprezentacji map (czwotokątne, sześciokątne, dwuwymiarowe euklidesowskie, hiperboliczne "rybie oko", prezentacja na kuli, torusie, walcu) Możliwość przyrostowego generowania mapy Środowisko do badań eksperymentalnych nad nowymi koncepcjami map

BEATCA – nowa koncepcja wyszukiwarki o interfejsie mapowym Nowe koncepcje pająka (quasi-inteligencja) Wyszukiwanie tematyczne w oparciu o sieci Bayesowskie Nowe koncepcje indeksera Nowa metoda tzw. blokowych list inwersyjnych Nowe metody redukcji słownika Nowa metoda identyfikacji fraz Nowe koncepcje analizatora - konstruktora map lokalno-globalne metody wyszukiwania zwycięzcy dla SOM oraz dla GNG Nowe metody tematycznej inicjalizacji mapy (SVD, PLSA w wersji z naiwną siecią Bayesowską, siecią ETC, metodą HAL) Nowe metody grupowania obszarów mapy (w oparciu m.in. o Fuzzy-c-means)

BEATCA – nowa koncepcja wyszukiwarki o interfejsie mapowym Nowe koncepcje informatora Mapowo-sieciowa reprezentacja GNG automatyczny dobór najlepszej mapy spośród szeregu wcześniej przygotowanych mapy wielowarstwowe (mapy kontekstowe) Kompaktowe obszary tematyczne identyfikowane

BEATCA – nowa koncepcja wyszukiwarki o interfejsie mapowym Poza tym: Wyniki wyszukiwania prezentowane na mapie dokumentów Streszczenia związane z zapytaniem generowane on-line Automatyczna generacja tezaurusa przy użyciu GNG Uzupełnianie kwerend przy użyciu sieci bayesowskich (sieci ETC lub Chow.Liu) lub modelu HAL (z normalizowanymi lub nienormalizowanymi wektorami) Pająk sieciowy i dyskowy Możliwość ograniczenia domen dla pająka, głębokości podkatalogów jak i liczby ściąganych dokumentów Pająk wielowątkowy Przetwarzanie dokumentów HTML, tekstowych i PDF Rozpoznawanie języka dokumentu (polski, niemiecki, angielski)

BEATCA – nowa koncepcja wyszukiwarki o interfejsie mapowym Oraz Inteligentne priorytetowanie kolejki pająka Wybór strategii przeszukiwania sieci przez pająka, metoda przypisująca priorytety adresowm umieszczanym w kolejce. 1 – Wykorzystanie miary kosinusowej do określenia wagi linków, 2 – Wykorzystanie sieci bayesa do określenia wagi linków, 3 – Wykorzystanie HALa do określenia wagi linków. Określenie tematyki zbieranych dokumentów (termy z z wagami) Listy inwersyjne ze statycznymi lub dynamicznymi blokami Automatyczny dobór stemmera (polski, angielski, niemiecki) Cztery metody optymalizacji słownika termów Automatyczny dobór progów jakości termów przy optymalizacji słownika

BEATCA architektura

Interfejs użytkownika

Tradycyjna płaska mapa sześciokątna

Tradycyjna kwadratowa mapa płaska

Trójwymiarowe wizualizacje mapy

Środowisko eksperymentalne Możliwość pomiarów jakości generowanych map – wykorzystane miary obiektywnej jakości 4001 = Average Map Cosine Quantization (cellErr): - pomiar ciągłości topologicznej mapy 4002 = Average Document Cosine Quantization (docErr) - pomiar jakości grup dokumentów na poziomie komórki

Miary zgodności klasteryzacji z intencją (na bazie z góry zadanej klasyfikacji) 4003 = Cluster Purity: - czystość pojedynczej komórki 4004 = Cluster Entropy: - entropia pojedynczej komórki 4005 = Average Weighted Cluster Purity: - średnia czystość komórek mapy 4006 = Average Weighted Cluster Entropy: - średnia entropia komórek mapy 4007 = Normalized Mutual Information (NMI): - relacja między entropią klas a entropią klastrów (stosunek faktycznej entropiii do entropii oczekiwanej przy niezależności klastrów i klas) Pomiary jakości

Eksperymenty Experiment #12: GNG with 64 gas cells Experiment #13: SOM - 8*8 cell map Experiment #22: GNG with 16 gas cells Experiment #23: SOM - 4*4 cell map Porównanie SOM i GNG

Eksperymenty Objaśnienia skrótów: docGroup – metoda grupowania dokumntów ETC – (Edge Tree construction algorithm), init kernel – rozmiar sąsiedztwa do nauki SOM IDComponent – faza uczenia init – początkowa, 0 – po 1 iteracji 63 – po 63 iteracji final – na końcu Porównanie SOM i GNG

Wyniki 4001 = cellErrexperimentssettings (12 / 13 )settings (22 / 23) 4002 = docErr12 / 22 = GNG64 cells16 cells 13 / 23 = SOMinit kernel = 2init kernel = 1 docGroup = ETC Porównanie SOM i GNGH 4002 = Average Document Cosine Quantization (docErr)

Wyniki 4005 = AvgPurityexperimentssettings (12 / 13 )settings (22 / 23) 4006 = AvgEntropy12 / 22 = GNG64 cells16 cells 13 / 23 = SOMinit kernel = 2init kernel = 1 docGroup = ETC Porównanie SOM i GNG 4006 = Average Weighted Cluster Entropy: - średnia entropia komórek mapy

Wyniki 4007 = NMIexperimentssettings (12 / 13 )settings (22 / 23) 12 / 22 = GNG64 cells16 cells 13 / 23 = SOMinit kernel = 2init kernel = 1 docGroup = ETC Porównanie SOM i GNG 4007 = Normalized Mutual Information (NMI): - relacja między entropią klas a entropią klastrów

Eksperymenty Skróty NB – naïve Bayes, SVD – Singular Value Decomposition, ETC – Edge Tree construction algorithm IDComponent – faza uczenia init – początkowa, 0 – po 1 iteracji 63 – po 63 iteracji final – na końcu Porównanie parametrów i inicjalizacji SOM

Wyniki CZ i. Duże sąsiedztwa measuresexperimentssettings 4001 = cellErr11 = NB SOM 4002 = docErr12 = ETC 64 cells 13 = SVDinit kernel = 3 (49 cells) Porównanie parametrów i inicjalizacji SOM 4002 = Average Document Cosine Quantization (docErr)

CZ i. Duże sąsiedztwa measuresexperimentssettings 4005 = AvgPurity11 = NB SOM 4006 = AvgEntropy12 = ETC 64 cells 13 = SVDinit kernel = 3 (49 cells) Wyniki Porównanie parametrów i inicjalizacji SOM 4006 = Average Weighted Cluster Entropy: - średnia entropia komórek mapy

CZ i. Duże sąsiedztwa measuresexperimentssettings 4005 = AvgPurity11 = NB SOM 4006 = AvgEntropy12 = ETC 64 cells 13 = SVDinit kernel = 3 (49 cells) Wyniki Porównanie parametrów i inicjalizacji SOM 4007 = Normalized Mutual Information (NMI): - relacja między entropią klas a entropią klastrów

Cz.ii Małe sąsiedztwa measuresexperimentssettings 4001 = cellErr11 = NB SOM 4002 = docErr12 = ETC 64 cells 13 = SVDinit kernel = 3 (25 cells) Wyniki Porównanie parametrów i inicjalizacji SOM

Cz.ii Małe sąsiedztwa measuresexperimentssettings 4005 = AvgPurity11 = NB SOM 4006 = AvgEntropy12 = ETC 64 cells 13 = SVDinit kernel = 3 (25 cells) Wyniki Porównanie parametrów i inicjalizacji SOM

Cz.ii Małe sąsiedztwa measuresexperimentssettings 4007 = NMI11 = NB SOM 12 = ETC 64 cells 13 = SVDinit kernel = 3 (25 cells) Wyniki Porównanie parametrów i inicjalizacji SOM 4007 = Normalized Mutual Information (NMI): - relacja między entropią klas a entropią klastrów

Adaptacyjność Pająk Możliwość szukania wg profili tematycznych Dopasowanie do profilu dotychczas wyszukanych dokumentów Indekser Przyrostowa konstrukcja indeksu Listy inwersyjne z dynamicznymi blokami Maper GNG – uczenie struktury powiązań z zapominaniem grup i powiązań nieaktywnych Fleksybilnna inicjalizacja mapy, przewidująca uuczenieprzyrostowe

Gładkość modelu - nieadaptacyjna i adaptacyjna konstrukcja

Przemieszczanie dokumentu między komórkami - nieadaptacyjna i adaptacyjna konstrukcja

Średni błąd kwantyzacji - nieadaptacyjna i adaptacyjna konstrukcja

Jakość lokalnej metody w konstrukcji GNG - metoda klasyczna (globalna) a nowa (drzewiasta

Czas obliczeń - metoda klasyczna (globalna) a nowa (drzewiasta

Dziękuję