Wprowadzenie do budowy usług informacyjnych

Slides:



Advertisements
Podobne prezentacje
Excel Narzędzia do analizy regresji
Advertisements

Tworzenie stron internetowych
Klasyfikacja danych Metoda hierarchiczne
SYSTEMY WYSZUKIWANIA INFORMACJI
Wprowadzenie do budowy usług informacyjnych
S – student, P – przedmiot, W – wykładowca
Wykład 28 Włodzisław Duch Uniwersytet Mikołaja Kopernika
HTML.
Badania operacyjne. Wykład 2
Metoda węzłowa w SPICE.
KNW- Wykład 8 Wnioskowanie rozmyte.
Komponenty bazy danych Baza danych Jest to uporządkowany zbiór powiązanych ze sobą danych charakterystycznych dla pewnej klasy obiektów lub zdarzeń,
CLUSTERING Metody grupowania danych Plan wykładu Wprowadzenie Dziedziny zastosowania Co to jest problem klastrowania? Problem wyszukiwania optymalnych.
SIECI KOMPUTEROWE (SieKom) PIOTR MAJCHER WYŻSZA SZKOŁA ZARZĄDZANIA I MARKETINGU W SOCHACZEWIE Zarządzanie.
Kwerendy –wszystkie typy (usuwające, aktualizujące i inne)
Miary jednej cechy Miary poziomu Miary dyspersji Miary asymetrii (skośności)
Kwerendy, formularze, relacje, raporty i makra
Metody wyszukiwania informacji
Algorytm Rochio’a.
Inteligencja Obliczeniowa Klasteryzacja i uczenie bez nadzoru.
Wprowadzenie do budowy usług informacyjnych
Metody Sztucznej Inteligencji w Sterowaniu 2009/2010Optymalizacja miary efektywności działania sztucznych sieci neuronowych Dr hab. inż. Kazimierz Duzinkiewicz,
Paweł Kramarski Seminarium Dyplomowe Magisterskie 2
Wykład 7 Wojciech Pieprzyca
Grupowanie.
Grupowanie Wprowadzanie Definicja problemu
Cluster Analysis and Self-Organizing Maps Analiza skupień i metody SOM
Modele baz danych - spojrzenie na poziom fizyczny
Paweł Stasiak Radosław Sobieraj Michał Wronko
Klasyfikacja dokumentów za pomocą sieci radialnych Paweł Rokoszny Emil Hornung Michał Ziober Tomasz Bilski.
Klasyfikacja dokumentów za pomocą sieci radialnych
Klasyfikacja dokumentów za pomocą sieci radialnych Paweł Rokoszny Emil Hornung Michał Ziober Tomasz Bilski.
dr inż. Piotr Muryjas Wyższa Szkoła Przedsiębiorczości i Administracji
Rozkład t.
Elementy Rachunku Prawdopodobieństwa i Statystyki
Wykład 25 Regulatory dyskretne
MECHANIKA NIEBA WYKŁAD r.
Segmenty rynku prasowego
Elementy Rachunku Prawdopodobieństwa i Statystyki
Techniki eksploracji danych
GŁOSOWA ŁĄCZNOŚĆ Z KOMPUTEREM
Systemy wspomagania decyzji
Modelowanie i identyfikacja 2010/2011Optymalizacja miary efektywności działania sztucznych sieci neuronowych Dr hab. inż. Kazimierz Duzinkiewicz, Katedra.
II. Matematyczne podstawy MK
Wybrane zagadnienia relacyjnych baz danych
VI EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja
VII EKSPLORACJA DANYCH
SYSTEMY EKSPERTOWE I SZTUCZNA INTELIGENCJA
Podstawy Techniki Cyfrowej
Seminarium licencjackie Beata Kapuścińska
Aplikacje internetowe
Programowanie strukturalne i obiektowe C++
Model obiektowy bazy danych
Metody numeryczne szukanie pierwiastka metodą bisekcji
Grafika i komunikacja człowieka z komputerem
Zagadnienie własne Macierz wektorów własnych V=(v1,v2,...,vn) przekształca zatem macierz A do postaci diagonalnej: W większości zastosowań w chemii i fizyce.
Warstwowe sieci jednokierunkowe – perceptrony wielowarstwowe
Metody Inteligencji Obliczeniowej
Statystyczna analiza danych w praktyce
Statystyczna analiza danych
Temat: Tworzenie bazy danych
STATYSTYKA – kurs podstawowy wykład 8 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.
STATYSTYKA – kurs podstawowy wykład 11
Dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii Metody klasyfikacji obiektów 1.
Koło Naukowe Metod Ilościowych
Projektowanie wspomagane komputerem
Co do tej pory robiliśmy:
Selekcja danych Korelacja.
Modele baz danych - spojrzenie na poziom fizyczny
Zapis prezentacji:

Wprowadzenie do budowy usług informacyjnych Uniwersytet Łódzki Katedra Informatyki W. Bartkiewicz Wprowadzenie do budowy usług informacyjnych Wykład 7. Grupowanie dokumentów tekstowych

Grupowanie dokumentów Katedra Informatyki Grupowanie (analiza skupień, klasteryzacja) – ang. clustering – proces podziału zbioru obiektów na klasy (grupy, skupienia, klastry, kategorie) obiektów podobnych. Obiekty wewnątrz tej samej klasy powinny być jak najbardziej podobne. Obiekty różnych klas powinny jak najbardziej różnić się między sobą. W IR grupujemy zazwyczaj dokumenty lub termy, czasami zapytania. W przeciwieństwie do klasyfikacji jest to proces nienadzorowany – nie mamy zbioru przykładów ze wstępnie określonymi kategoriami. Grupowanie polega na analizie zależności między obiektami w zbiorze surowych danych. Proces grupowania zazwyczaj opiera się na porównywaniu parami obiektów przy wykorzystaniu miar podobieństwa (odległości). Porównywanie dokumentów, porównywanie prototypów (centroidów) skupień oraz dokumentów, porównywanie samych skupień (grup). Stosowanych jest wiele różnych miar podobieństwa, zarówno ogólnych jak i specyficznych dla określonej dziedziny zastosowań.

Grupowanie dokumentów Główne obszary zastosowań Katedra Informatyki Wspomaganie nawigacji/analizy w bazie dokumentów. Lepsze interfejsy użytkownika. Poprawa kompletności procesu wyszukiwania. Lepsze zbiory (rankingi) wynikowe wyszukiwania. Wspomaganie nawigacja w zbiorze wynikowym wyszukiwania. Zwiększa praktyczną „kompletność użytkownika” procesu wyszukiwania. Przyśpieszanie procesu wyszukiwania w modelu wektorowym. Szybsze wyszukiwanie.

Nawigacja w bazie dokumentów Hierarchie typu Yahoo Katedra Informatyki www.yahoo.com/Science … (30) agriculture biology physics CS space ... ... ... ... ... dairy botany cell AI courses crops craft magnetism agronomy HCI missions forestry evolution relativity Proces grupowania umożliwia również tworzenie hierarchii grup dokumentów, odpowiadających hierarchiom tematycznym w bazie dokumentów.

Nawigacja w bazie dokumentów Interfejsy typu Scatter/Gather Katedra Informatyki Użytkownik wybiera jedną lub więcej najbardziej odpowiadających mu kategorii, aby rozwinąć następny poziom

Nawigacja w bazie dokumentów Wizualizacja bazy dokumentów Katedra Informatyki Algorytmy grupowania wykorzystywane są do tworzenia „map tematycznych” baz dokumentów – wizualizacji polegającej na odwzorowaniu znalezionych kategorii tematycznych na płaszczyznę, tak aby podobne kategorie tematycznie znajdowały się blisko siebie.

Grupowanie dokumentów Poprawa kompletności wyszukiwania Katedra Informatyki Opiera się ona na tzw. „hipotezie grupowej” (cluster hypothesis). Dokumenty o podobnej zawartości są ze sobą związane tematycznie, tak więc są relewantne dla tych samych zapytań. Aby poprawić kompletność wyszukiwania należy więc: Pogrupować z góry dokumenty w bazie. Jeśli pewien dokument d odpowiada zapytaniu, zwrócić również inne dokumenty z kategorii do której należy dokument d. Dzięki temu mamy nadzieję, że zapytanie zawierające słowo kluczowe „auto” zwróci również dokumenty zawierające słowo kluczowe „samochód”. Ponieważ w procesie klasteryzacji dokumenty zawierające słowo „auto” powinny zostać pogrupowane razem z dokumentami zawierającymi słowo „samochód”.

Grupowanie dokumentów Nawigacja w zbiorze wynikowym Katedra Informatyki Zbiory wynikowe zapytań mogą być długie, co utrudnia użytkownikowi ich przeglądanie. Mogą więc być grupowane w podgrupy bardziej jednorodne tematycznie.

Grupowanie dokumentów Przyśpieszanie wyszukiwania Katedra Informatyki Proces grupowania wykorzystywany jest również do przyśpieszania przetwarzania zapytania, zwłaszcza w wymagającym dużych nakładów obliczeniowych modelu wektorowym. Zamiast obliczać podobieństwo zapytania do wszystkich dokumentów w kolekcji, może być ono wyznaczane jedynie dla centroidów poszczególnych skupień dokumentów. W wyniku zapytania zwracane mogą być wszystkie dokumenty należące do podgrup, których centroidy sa najbardziej podobne do zapytania.

Grupowanie dokumentów Ogólne typy algorytmów grupowania Katedra Informatyki Kilka podziałów na podstawie zależności między grypami, obiektami i atrybutami. W oparciu o zależności między właściwościami i skupieniami: Grupowanie monotetyczne – wszystkie elementy grupy współdzielą te same właściwości. Na przykład wszystkim dokumentom należącym do określonej grupy tematycznej można przypisać jedno słowo kluczowe (frazę) określającą ich temat. Grupowanie politetyczne – wszystkie elementy grupy współdzielą większość właściwości. Na przykład dokumenty należące do określonej grypy tematyczne współdzielą większość termów, ale są indywidualne różnice. Temat grupy musi być zazwyczaj opisany kilkoma słowami kluczowymi.

Grupowanie dokumentów Ogólne typy algorytmów grupowania Katedra Informatyki W oparciu o zależności między obiektami i grupami: Grupowanie rozłączne (ostre, twarde) – każdy z obiektów przydzielany jest jednoznacznie do jednej tylko grupy. Nie pozwala ono na wyrażenie niepewności przy przydziale dokumentu do grupy, oraz na przynależność dokumentu do kilku grup. Grupowanie miękkie – pozwala na przynależność obiektu do kilku klas. Zazwyczaj dają one rozkłady prawdopodobieństwa (lub w przypadku rozmytym – możliwości) przynależności dokumentu do poszczególnych klas. W oparciu o zależności między grupami: Podziałowe – wszystkie skupienia są niezależne od siebie, zazwyczaj rozłączne (w grupowaniu twardym). Hierarchiczne - skupienia tworzą hierarchię, w której skupienia na niższym poziomie zawierają się w skupieniach na poziomie wyższym.

Grupowanie dokumentów Grupowanie podziałowe Katedra Informatyki . . .

Grupowanie dokumentów Grupowanie hierarchiczne Katedra Informatyki zwierzę kręgowiec ryba gad płaz ssak stawonóg owad skorupiak bezkręgowiec Algorytmy grupowania hierarchicznego tworzą ze zbioru dokumentów drzewiastą taksonomię hierarchiczną (dendogram). Jednym ze sposobów może być rekurencyjne użycie algorytmu podziałowego Zazwyczaj jednak stosuje się specjalne algorytmy.

Grupowanie dokumentów Grupowanie hierarchiczne Katedra Informatyki Dendrogram jest drzewem definiującym hierarchię grup. Obejmuje informacje o zawieraniu się grup na każdym z poziomów. Zbiór skupień otrzymywany jest zazwyczaj poprzez obcięcie dendogramu na pewnym określonym poziomie.

Grupowanie dokumentów Algorytmy grupowania podziałowego Katedra Informatyki Ogólny schemat: Określamy liczbę grup (skupień) k, jaką chcemy otrzymać. Określamy zalążki początkowe prototypów skupień – k obiektów danych, po jednym dla każdego skupienia. Przy wykorzystaniu zalążków określony jest początkowy podział obiektów na skupienia. Iteracyjnie przemieszczamy obiekty między różnymi grupami, tak by poprawiać w każdym kroku jakość grupowania. Algorytm kończy swoje działanie po osiągnięciu zbieżności (ustaleniu się skupień) lub po określonej liczbie iteracji.

Grupowanie dokumentów Algorytm k-środków Katedra Informatyki Dokumenty reprezentowane są jako wektory rzeczywiste Zazwyczaj są to znormalizowane wektory tf*idf. Poszczególne skupienia definiowane są przez swoje centroidy (środki ciężkości), tzn. średnie wektorów wszystkich dokumentów należących do grupy. Tak więc dla każdej grupy c centroidem jest wektor: Klasyfikacja dokumentu do danego skupienia oparta jest na odległości wektora opisującego dokument od bieżących centroidów poszczególnych grup Metodą najbliższego sąsiada.

Grupowanie dokumentów Algorytm k-środków Katedra Informatyki Typowe miary odległości: Odległość Euklidesowa (norma L2): Norma L1: Współczynnik cosinusów (transformowany do odległości, np. poprzez odjęcie od 1)

Grupowanie dokumentów Algorytm k-środków Katedra Informatyki Niech d będzie miarą odległości między dokumentami. Wybierz losowo k dokumentów {s1, s2,… sk} jako zalążki. Powtarzaj dopóki proces grupowania nie osiągnie zbieżności lub do osiągnięcia innego kryterium zatrzymania: Dla każdego dokumentu xi określ grupę do której on należy: Przydziel dokument xi do skupienia (grupy) cj, dla którego odległość d(xi, sj) jest najmniejsza. Zaktualizuj centroidy grup: Dla każdego skupienia cj: sj = (cj)

Grupowanie dokumentów Algorytm k-środków Katedra Informatyki Określ zalążki Przydziel do skupień Oblicz centroidy grup x Przydziel do skupień x Oblicz centroidy grup Przydziel do skupień Zbieżność!

Grupowanie dokumentów Algorytmy grupowania hierarchicznego Katedra Informatyki Rozdzielające (top – down) – rozpoczynają od jednego skupienia zawierającego cały zbiór danych, następnie iteracyjnie rozdzielają najmniej podobne obserwacje (dokumenty) na osobne grupy, dopóki każdy dokument nie znajdzie się w osobnej grupie. Aglomeracyjne (bottom – up) – rozpoczynają od tylu grup ile jest przykładów (dokumentów) w zbiorze danych, a następnie iteracyjne łączą je, tworząc coraz większe skupienia, aż do uformowania jednego wielkiego skupienia obejmującego wszystkie dane.

Grupowanie dokumentów Hierarchiczne grupowanie aglomeracyjne Katedra Informatyki Hierarchiczne grupowanie aglomeracyjne (HAC – Hierarchical Agglomerative Clustering): Rozpoczyna z każdym dokumentem w odrębnej grupie. Dopóki nie pozostanie wyłącznie jedno skupienie Wśród skupień jakie uformowane zostały w bieżącym kroku znajdź dwa skupienia najbardziej podobne ci, cj. Zastąp ci i cj jedną nową grupą ci  cj.

Grupowanie dokumentów Podobieństwo grup Katedra Informatyki Wiele metod określania podobieństwa skupień (grup): Metoda pojedynczego połączenia (single-link) – podobieństwo dwu skupień równe jest podobieństwu pary najbardziej podobnych (najbliższych) obserwacji z obu grup. O podobieństwie grup decyduje jedna wybrana para obserwacji z obu skupień (pojedyncze połączenie). Metoda całkowitego połączenia (complete-link) – podobieństwo dwu skupień równe jest podobieństwu pary najmniej podobnych (najdalszych) obserwacji z obu grup. O podobieństwie grup decydują wszystkie obserwacje z obu skupień (całkowite połączenie). Metoda centroidu – podobieństwo dwu skupień równe jest podobieństwu ich centroidów (prototypów). Metoda średniego połączenia (average-link) – podobieństwo dwu grup równe jest średniemu podobieństwu wszystkich możliwych par obserwacji z obu grup. Jako miarę podobieństwa w przypadku grupowania dokumentów przyjmuje się zazwyczaj współczynnik cosinusów.

Grupowanie dokumentów Metoda pojedynczego połączenia Katedra Informatyki Wykorzystuje maksymalne podobieństwo par: Może dawać w efekcie długie i wąskie grupy, z powodu efektu łańcucha. Może to być zaletą jedynie w pewnych dziedzinach aplikacji. W każdym kroku musimy wyznaczyć podobieństwo nowo utworzonego skupienia (grupy) do wszystkich pozostałych. Po połączeniu grup ci i cj, podobieństwo powstałego skupienia do każdego z innych skupień ck, może być obliczone jako:

Grupowanie dokumentów Metoda pojedynczego połączenia Katedra Informatyki

Grupowanie dokumentów Metoda całkowitego połączenia Katedra Informatyki Wykorzystuje maksymalne podobieństwo par: Tworzy bardziej skupione, sferyczne grupy (skupienia), co zazwyczaj jest bardziej preferowane.. W każdym kroku musimy wyznaczyć podobieństwo nowo utworzonego skupienia (grupy) do wszystkich pozostałych. Po połączeniu grup ci i cj, podobieństwo powstałego skupienia do każdego z innych skupień ck, może być obliczone jako:

Grupowanie dokumentów Metoda całkowitego połączenia Katedra Informatyki