Search Results Clustering

Slides:



Advertisements
Podobne prezentacje
Rafał Hryniów Tomasz Pieciukiewicz
Advertisements

Nowoczesne narzędzia wykorzystywane w cyklu polityk publicznych
TERMO-SPRĘŻYSTO-PLASTYCZNY MODEL MATERIAŁU
Wyszukiwarki internetowe
Wyszukiwanie i zapisywanie informacji
Zrównoleglanie programu sekwencyjnego
Dwujęzyczne, dwukulturowe, dwumodalne:
Joanna Dziak Urszula Długaj Halina Skrzypiec
Propozycja metodyki nauczania inżynierii oprogramowania
WEDT Klasyfikacja i grupowanie dokumentów
P O D S T A W Y P R O G R A M O W A N I A
Dokumentowanie wymagań w języku XML
Promotor: prof. dr hab. Włodzisław Duch
Klasyfikacja dokumentów tekstowych w oparciu o blogi
Metody wyszukiwania informacji
Wprowadzenie do budowy usług informacyjnych
Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu Społecznego Inwestycja w kadry 3 Praca zaliczająca moduł Dr G.Maniak.
Wykład 2: Systemy klasy C.A.T. (Computer-Aided Translation)
Odkrywanie wzorców sekwencji
Grupowanie Wprowadzanie Definicja problemu
Ukryte indeksowanie semantyczne SVD Struktury danych
Techniki digitalizacji, organizowania oraz efektywnego wyszukiwania informacji z dokumentów tekstowych Remigiusz Baran, Andrzej Dziech, Paweł Fornalski,
Linear Methods of Classification
Google – sposoby wyszukiwania
Zaawansowane przetwarzanie tekstu dla potrzeb bibliotek cyfrowych Stanisław Osiński
Klasyfikacja dokumentów za pomocą sieci radialnych Paweł Rokoszny Emil Hornung Michał Ziober Tomasz Bilski.
Bibliotekarz – odkrywca. Agenda Proces tworzenia informacji Indeksy wyszukiwawcze Budowa rekordu w Promaxie Zapytania.
Zależności funkcyjne.
Strategia skutecznego szukania informacji w Internecie
POJĘCIE ALGORYTMU Pojęcie algorytmu Etapy rozwiązywania zadań
Podstawy układów logicznych
Model przestrzenny Diagramu Obiegu Dokumentów
Obserwatory zredukowane
AUTOMATYKA i ROBOTYKA (wykład 5)
Wanda Klenczon Biblioteka Narodowa
Pliki Pojęcie i rodzaje plików Definicja typu plikowego Operacje wykonywane na plikach elementowych.
Detekcja twarzy w obrazach cyfrowych
Podstawy programowania w języku C i C++
Modelowanie i identyfikacja 2010/2011Optymalizacja miary efektywności działania sztucznych sieci neuronowych Dr hab. inż. Kazimierz Duzinkiewicz, Katedra.
Teoria sterowania 2011/2012Stabilno ść Kazimierz Duzinkiewicz, dr hab. in ż. Katedra In ż ynierii Systemów Sterowania 1 Stabilność Stabilność to jedno.
Sterowanie – metody alokacji biegunów
XML – eXtensible Markup Language
Algorytmy.
Rozwiązanie zadań do zaliczenia I0G1S4 // indeks
Autor: Joanna Barańska Promotor: dr inż. Paweł Figat Konsultant:
Wprowadzenie do HTML Informatyka Cele lekcji: Wiadomości:
SYSTEMY EKSPERTOWE I SZTUCZNA INTELIGENCJA
Moduł III Definiowanie i planowanie zadań typu P 1.
Wyszukiwanie informacji w internecie
Treści multimedialne - kodowanie, przetwarzanie, prezentacja Odtwarzanie treści multimedialnych Andrzej Majkowski 1 informatyka +
Zagadnienia AI wykład 2.
Iga Lewandowska I EMII MU
Automatyczna interpretacja pytań i udzielanie odpowiedzi (Question & Answering)
Wykorzystanie modułu skanów Systemu C2
Podstawy programowania
Logical Framework Approach Metoda Macierzy Logicznej
Warstwowe sieci jednokierunkowe – perceptrony wielowarstwowe
Wyszukiwanie informacji w Internecie Marcin Wojnowski.
Dokumentacja programu komputerowego i etapy tworzenia programów.
1 Nawigacja w Internecie Ewa Półtorak Zakład Kształcenia na Odległość Instytut Języków Romańskich i Translatoryki Uniwersytetu Śląskiego.
Programowanie strukturalne i obiektowe Klasa I. Podstawowe pojęcia dotyczące programowania 1. Problem 2. Algorytm 3. Komputer 4. Program komputerowy 5.
Inżynieria systemów informacyjnych
Metody eksploracji tekstu
Efektywność algorytmów
JAKUB BAREŁKOWSKI REKLAMA W WYSZUKIWARKACH
Reklama w wyszukiwarkach internetowych. Formy reklamy w wyszukiwarkach internetowych ●wyniki organiczne zbudowane na podstawie algorytmu oceniającego.
Reklama w wyszukiwarkach internetowych Jakub Barełkowski.
Metody Eksploracji Danych
Strukturalny język zapytań SQL - historia
Wyniki próbnego egzaminu gimnazjalnego – język obcy nowożytny.
Zapis prezentacji:

Search Results Clustering Carrot2 Search Results Clustering

Wyszukiwanie Internetowe – Uniwersytet Śląski Plan prezentacji: Definicje i podstawowe informacje; Model wektorowy; Podobieństwo dokumentów; Podstawy; Historia i dane techniczne; Przykładowe algorytmy; Bibliografia Wprowadzenie System Carrot2 Podsumowanie Wyszukiwanie Internetowe – Uniwersytet Śląski

Wprowadzenie ( Definicje i podstawowe informacje ) Fraza - uporządkowany ciąg słów zaczerpnięty z tekstu. Słowo Kluczowe - słowo reprezentujące znaczenie pewnej dłuższej sekwencji słów, w szczególności całego dokumentu. Lematyzacja - sprowadzenie formy fleksyjnej do postaci słownikowej (lematu). Lematyzacja w kontekście odkrywania wiedzy - odróżnienie słów o innym znaczeniu od form jednego słowa, które przyjmuje inny zapis w zależności od funkcji w zdaniu. Search Results Clustering – efektywne utworzenie sensownych grup tematycznie powiązanych dokumentów, oraz ich zwięzłe opisanie w sposób zrozumiały dla człowieka. Wyszukiwanie Internetowe – Uniwersytet Śląski

Wprowadzenie ( Model wektorowy ) Dokument tekstowy może być łatwo reprezentowany w wysoko-wymiarowej przestrzeni wektorowej, gdzie terminy w dokumencie (termy) są powiązane z elementami wektorów. Mówiąc dokładniej, dokument tekstowy d może być traktowany jako sekwencja termów: d=(ω(1), ω(2), ω(3),... ω(|d|)), gdzie: |d| jest długością dokumentu, oraz ω(t)V. Reprezentacja d w przestrzeni wektorowej jest wówczas zdefiniowana jako rzeczywisty wektor: x  R|v|,gdzie każdy element xj jest statystycznie powiązany z występowaniem j-tego wpisu słownikowego w dokumencie. Najprostsza reprezentacja wektorowa to reprezentacja boolowska tj. xj  {0,1}, wskazuje obecność lub jej brak termu ωj w reprezentowanym dokumencie. Taka reprezentacja zwana jest często pojemnikiem słów (bag of words). Wyszukiwanie Internetowe – Uniwersytet Śląski

Wprowadzenie ( Model wektorowy ) Zbiór unikalnych słów T=t1, t2, … tn ; Dokumenty (D=d1, d2, … dm) reprezentowane jako n-wymiarowe wektory: • di=[wi1, wi2, … win], gdzie wij jest wagą j-tego słowa w dokumencie i; • Wagi słów — jak dane słowo jest charakterystyczne dla dokumentu? • Wiele różnych form: binarna — wij=1 lub wij=0; częstość wystąpień - wij=tfij(tj); tfidf (Salton) – wij=tfij(tj)*log(N/dfij(tj)); Wyszukiwanie Internetowe – Uniwersytet Śląski

Wprowadzenie ( Model wektorowy ) Rys. Reprezentacja w przestrzeni wektorowej. Dla każdego z dokumentów, lewy wektor szacuje liczbę pojawiających się termów, podczas gdy prawy wektor bazuje na wagach TF-IDF. Wyszukiwanie Internetowe – Uniwersytet Śląski

Wprowadzenie ( Model wektorowy ) The t=5 terms: T1: Information T2: Singular T3: Value T4: Computations T5: Retrieval The d=7 documents: D1: Large Scale Singular Value Computations D2: Software for the Sparse Singular ValueDecomposition D3: Introduction to Modern InformationRetrieval D4: Linear Algebra for Intelligent Information Retrieval D5: Matrix Computations D6: Singular Value Analysis of Cryptograms D7: Automatic Information Organization Wyszukiwanie Internetowe – Uniwersytet Śląski

Wprowadzenie ( Podobieństwo dokumentów ) Możemy zdefiniować podobieństwo pomiędzy dwoma dokumentami d i d’ jako funkcję s(d,d’)R. Funkcja ta, pozwoli nam ustalić zakres klastrów, uzyskanych poprzez grupowanie, w odniesieniu do zadanego pytania (obliczając podobieństwo pomiędzy każdym dokumentem (lub grupami dokumentów), a kwerendą). Klasyczne podejście bazuje na reprezentacji przestrzeni wektorowej, oraz metryce zdefiniowanej jako współczynnik cosinusowy (cosine coefficient) (Salton i McGill – 1983). ,gdzie superskrypt (indeks górny) T symbolizuje operator transpozycji, a xTy efekt w postaci punktu, lub obszaru między dwoma wektorami x, y  R, zdefiniowany jako: Wyszukiwanie Internetowe – Uniwersytet Śląski

Wprowadzenie ( Podobieństwo dokumentów ) Przykład: Wyszukiwanie Internetowe – Uniwersytet Śląski

Wprowadzenie ( Podobieństwo dokumentów ) Przykład cd.: Zapytanie: Singular Value; Wyszukiwanie Internetowe – Uniwersytet Śląski

Wyszukiwanie Internetowe – Uniwersytet Śląski Plan prezentacji: Definicje i podstawowe informacje; Model wektorowy; Podobieństwo dokumentów; Podstawy; Historia i dane techniczne; Przykładowe algorytmy; Bibliografia Wprowadzenie System Carrot2 Podsumowanie Wyszukiwanie Internetowe – Uniwersytet Śląski

System Carrot2 ( Podstawy ) bazujący na komponentach framework efektywnego przetwarzania danych; prosta dystrybucja (protokół HTTP POST, sterowany danymi); prosta integracja (nacisk na XML-owy format danych); problem „przeciążenia danych” (konieczność zgłębiania nieograniczonych bibliotek); podproblemy Search Results Clustering : Wyodrębnienie podobnych dokumentów; Opisanie utworzonych grup; Zweryfikowanie jakości wyników. Wyszukiwanie Internetowe – Uniwersytet Śląski

System Carrot2 ( Podstawy ) Carrot operuje jedynie na snippetach, bez odczytywania dokumentów źródłowych. Wynika z tego fakt, iż jakość grupowania będzie silnie zależeć od siły opisowej snippetów – krótkich fragmentów tekstu zwróconych przez wyszukiwarkę. W tym aspekcie systemy typu Carrot, będą znacznie ograniczone przez zaimplementowane algorytmy samych wyszukiwarek (Google, Yahoo!, itp.) służące odnalezieniu zdań, które w sposób właściwy opisują temat strony. Daje to jednak pewne korzyści, w postaci krótkiego czasu wyszukiwania (wynikającego z faktu braku konieczności analizowania całych dokumentów). Wyszukiwanie Internetowe – Uniwersytet Śląski

System Carrot2 ( Podstawy ) Carrot daje olbrzymie możliwości analizy wyników zapytania względem tradycyjnych wyszukiwarek. Poprzez ekstrakcję fraz z pierwszych paruset odnośników i ich prezentację w skumulowanej formie uzyskujemy możliwość pobieżnego przeglądu o parę rzędów wielkości większej liczby dokumentów niż miałoby to miejsce przy klasycznym listowym widoku. System przekierowuje zapytanie do wyszukiwarki (Google, Yahoo!, itp.), pobiera od niej kilkaset początkowych odnośników, a następnie analizuje je poszukując wspólnych, opisowych fraz. Frazy te, o ile są wystarczająco częste, są traktowane jako reprezentanci grup tematycznych. Wyszukiwanie Internetowe – Uniwersytet Śląski

System Carrot2 ( Podstawy ) Wyszukiwanie Internetowe – Uniwersytet Śląski

System Carrot2 ( Historia ) Carrot nie był pierwszym systemem grupującym wyniki z wyszukiwarek – wcześniej powstały systemy Grouper, Vivisimo oraz inne, których funkcjonalność jednak nigdy nie wysunęła się poza obszar eksperymentu obliczeniowego. Grouper, jako projekt również typowo badawczy, został usunięty z sieci w roku 2001 (po zakończeniu badań). Co warte podkreślenia, Carrot jest jedynym systemem grupującym, działającym dla języków innych niż język angielski. Nazwa systemu odnosi się do wcześniejszych owocowych systemów wspomagających odkrywanie wiedzy z danych tekstowych (Lemon, Grape, Orange). Wyszukiwanie Internetowe – Uniwersytet Śląski

System Carrot2 ( Dane techniczne ) Jedyny otwarty system do eksperymentowania z algorytmami grupowania wyników Skrócenie czasu weryfikacji nowych pomysłów Umożliwienie porównania metod Ponowne użycie raz napisanych elementów Wiele istniejących modułów i narzędzi wspomagających Zaimplementowane algorytmy AHC, różne warianty STC Lingo Komponenty lingwistyczne: Lematyzator Portera Lematyzator (własny alg.) Inne Wyszukiwanie Internetowe – Uniwersytet Śląski

System Carrot2 ( Dane techniczne ) Ilość osób zaangażowanych w projekt: Ok. 5 - ( 3 studentów, 1 doktorant, 1 opiekun naukowy); Software: Budowanie systemu: junit, httpunit Zaawansowane technologie: XSLT,XSL:FO,XML data binding, STRUTS, gnuregexp. Projekt: Ogólny rozmiar projektu: 36 MB; Rozmiar kodu: 227 plików, 1MB, ok. 35000 linii. Wyszukiwanie Internetowe – Uniwersytet Śląski

System Carrot2 ( Przykładowe algorytmy ) LINGO – fazy: Przetwarzanie wstępne: Oczyszczanie tekstu; Identyfikacja języka; Stemming; Oznaczanie stop-words; Wybór cech: Identyfikacja częstych fraz, bazująca na tablicach przyrostkowych (suffix arrays); Wprowadzenie etykiet klastrów: Singular Value Decomposition (SVD) macierzy termin-dokument; Bazowe wektory wyprowadzone metodą SVD: pojęcia abstrakcyjne; Frazy: słowna reprezentacja abstrakcyjnych pojęć; Dopasowanie abstrakcyjnych pojęć i fraz: odległość cosinusowa = oznaczenie wyniku; Eliminacja powtórzeń; Oznaczenia klastrów: słownie określone pojęcia abstrakcyjne; Formowanie klastrów; Przetwarzanie końcowe: Oszacowanie wyników klastrów: WynikKlastra=OznaczenieWyniku*LiczbaElementów. Wyszukiwanie Internetowe – Uniwersytet Śląski

System Carrot2 ( Przykładowe algorytmy ) LINGO – mocne strony: Czytelne i różnorodne opisy klastrów; Pokrywające się klastry; Niezależność językowa; Łatwość strojenia; Budowa modułowa. LINGO – słabe strony: Stała liczba klastrów; Zbyt specjalistyczne oznaczenia grup; Wymagania obliczeniowe; Brak stopniowego przetwarzania. Wyszukiwanie Internetowe – Uniwersytet Śląski

System Carrot2 ( Przykładowe algorytmy ) Przykład działania LINGO: Wyszukiwanie Internetowe – Uniwersytet Śląski

Wyszukiwanie Internetowe – Uniwersytet Śląski Plan prezentacji: Definicje i podstawowe informacje; Model wektorowy; Podobieństwo dokumentów; Podstawy; Historia i dane techniczne; Przykładowe algorytmy; Bibliografia Wprowadzenie System Carrot2 Podsumowanie Wyszukiwanie Internetowe – Uniwersytet Śląski

Podsumowanie ( Bibliografia ) http://demo.carrot2.org/stable/api/ - dokumentacja API systemu; http://demo.carrot-search.com/carrot2-webapp/main http://demo.carrot2.org/demo-stable/main - publiczne wersje projektu; „Search Results Clustering in Polish: Evaluation of Carrot” – Dawid Weiss, Jerzy Stefanowski; „Grupowanie wyników zapytań do wyszukiwarek internetowych” – Dawid Weiss; „The Carrot2 Project” – Paweł Kowalik, Stanisław Osiński, Jerzy Stefanowski, Dawid Weiss, Michał Wróblewski. Wyszukiwanie Internetowe – Uniwersytet Śląski