WUT TWG 2005 WEDT Wyszukiwanie informacji Wykład 9 Piotr Gawrysiak 2006.

Slides:



Advertisements
Podobne prezentacje
TRADYCYJNE METODY PLANOWANIA I ORGANIZACJI PROCESÓW PRODUKCYJNYCH
Advertisements

Wprowadzenie do budowy usług informacyjnych
Modelowanie zależności ekspresji genów
Grafy spełniające nierówność Γ(G) < IR(G)
Rafał Hryniów Tomasz Pieciukiewicz
Inteligencja Obliczeniowa Metody oparte na podobieństwie do wzorców.
Badania operacyjne. Wykład 1
Badania operacyjne. Wykład 2
Sztuczne sieci neuronowe
Materiały pochodzą z Platformy Edukacyjnej Portalu
CLUSTERING Metody grupowania danych Plan wykładu Wprowadzenie Dziedziny zastosowania Co to jest problem klastrowania? Problem wyszukiwania optymalnych.
Wyszukiwanie zaawansowane w środowisku internetowym Maja Wilczewska-Wojczyszyn.
WEDT Klasyfikacja i grupowanie dokumentów
Szachy komputerowe. Ogólna idea silnika szachowego.
Rozpoznawanie Twarzy i Systemy Biometryczne, 2005/2006
WekaSQL Język i aplikacja przetwarzania oraz eksploracji danych.
WekaSQL Język i aplikacja przetwarzania oraz eksploracji danych.
Co to jest studium przypadku?
Jakość sieci geodezyjnych. Pomiary wykonane z największą starannością, nie dostarczają nam prawdziwej wartości mierzonej wielkości, lecz są zwykle obarczone.
Metody wyszukiwania informacji
Zastosowanie pamięci semantycznej we wspomaganiu decyzji medycznych
Wprowadzenie do budowy usług informacyjnych
Metody Sztucznej Inteligencji w Sterowaniu 2009/2010 Metoda propagacji wstecznej Dr hab. inż. Kazimierz Duzinkiewicz, Katedra Inżynierii Systemów Sterowania.
Wykład 6 Standardowy błąd średniej a odchylenie standardowe z próby
Wykład 7 Wojciech Pieprzyca
Ukryte indeksowanie semantyczne SVD Struktury danych
Wprowadzenie Klasyfikacja metod Page Rank Hubs & Authorities
Linear Methods of Classification
Autor: Maciej Piwowarczyk
Klasyfikacja dokumentów za pomocą sieci radialnych Paweł Rokoszny Emil Hornung Michał Ziober Tomasz Bilski.
Klasyfikacja dokumentów za pomocą sieci radialnych
Klasyfikacja dokumentów za pomocą sieci radialnych Paweł Rokoszny Emil Hornung Michał Ziober Tomasz Bilski.
Klasyfikacja dokumentów za pomocą sieci radialnych Paweł Rokoszny Emil Hornung Michał Ziober Tomasz Bilski.
Bibliotekarz – odkrywca. Agenda Proces tworzenia informacji Indeksy wyszukiwawcze Budowa rekordu w Promaxie Zapytania.
Inżynieria Oprogramowania
Licencjonowanie SharePoint 2013
Podstawy programowania II
„Ukryte” zasoby Internetu
Wanda Klenczon Biblioteka Narodowa
Sieci bayesowskie Wykonali: Mateusz Kaflowski Michał Grabarczyk.
Modelowanie populacji i przepływu opinii pomiędzy aktorami sztucznej inteligencji za pomocą sieci społecznej Wojciech Toman.
Systemy wspomagania decyzji
Modelowanie i Identyfikacja 2011/2012 Metoda propagacji wstecznej Dr hab. inż. Kazimierz Duzinkiewicz, Katedra Inżynierii Systemów Sterowania 1 Warstwowe.
XML – eXtensible Markup Language
1 Każdy obiekt jest scharakteryzowany poprzez: tożsamość – daje się jednoznacznie wyróżnić; stan; zachowanie. W analizie obiektowej podstawową strukturą
VI EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja
VII EKSPLORACJA DANYCH
Zasoby Internetowe Oxford University Press Niniejsza prezentacja podaje krótki opis Oxford Index. Mówi: czym jest Oxford Index jak może Ci pomóc jak.
Systemy rozproszone  Rozdzielenie obliczeń między wiele fizycznych procesorów.  Systemy luźno powiązane – każdy procesor ma lokalną pamięć; procesory.
Algorytmy i Struktury Danych
Wyszukiwanie informacji w internecie
Treści multimedialne - kodowanie, przetwarzanie, prezentacja Odtwarzanie treści multimedialnych Andrzej Majkowski 1 informatyka +
Ukryty Internet (Web).
Zagadnienie własne Macierz wektorów własnych V=(v1,v2,...,vn) przekształca zatem macierz A do postaci diagonalnej: W większości zastosowań w chemii i fizyce.
Automatyczna interpretacja pytań i udzielanie odpowiedzi (Question & Answering)
(ang. Invisible Web, Deep Web)
Temat Prezentacji : ZNACZNIKI META TAGS wyk.H. Kozłowski.
Warstwowe sieci jednokierunkowe – perceptrony wielowarstwowe
Metody sztucznej inteligencji – technologie rozmyte i neuronoweReguła propagacji wstecznej  Dr hab. inż. Kazimierz Duzinkiewicz, Katedra Inżynierii Systemów.
Bazy CINAHL Wyszukiwanie zaawansowane Przewodnik
Analiza Sieci Społecznych
Modele sieci społecznych
Rozkłady statystyk z próby dr Marta Marszałek Zakład Statystyki Stosowanej Instytut Statystyki i Demografii Kolegium.
WIZUALIZACJA ZBIORÓW BIBLIOTEKI GŁÓWNEJ POLITECHNIKI WARSZAWSKIEJ Lizbona Agnieszka Maria Kowalczuk, Łukasz Skonieczny, Małgorzata Wornbard.
Repozytoria instytucjonalne a wyszukiwarki akademickie
Listy.
Co do tej pory robiliśmy:
Indeksy.
Podstawy Automatyki Człowiek- najlepsza inwestycja
Zapis prezentacji:

WUT TWG 2005 WEDT Wyszukiwanie informacji Wykład 9 Piotr Gawrysiak 2006

WUT TWG 2005 Wyszukiwanie informacji IR – information retrieval IR to przypadek szczególny klasyfikacji, w której mamy do czynienia jedynie z dwoma klasami dokumentów Dwa podejścia dokładne (exact match) – w większości wypadków związane z zastosowaniem jakiegoś języka wyszukiwania (czy tez raczej języka specyfikacji zapytań – query language) rozmyte (fuzzy) – wykorzystuje metody statystyczne do oceny odpowiedniości dokumentu do zapytania główny problem – konstruowanie zapytania Obecnie najważniejsze repozytorium w którym dokonuje się wyszukiwania to sieć WWW Trudności (oba wynikają z rozmiaru repozytorium) zapewnienie wysokiej relewancji odpowiedzi zapewnienie wysokiej kompletności odpowiedzi przedstawienie wyniku w zrozumiały i efektywny sposób

WUT TWG 2005 Indeksowanie sieci WWW Scooter (AltaVista) : 1.5GB RAM, 30GB disk, 4x533 MHz Alpha, 1GB/s I/O (crawler) – 1 miesiąc na pełny recrawl ~40% zasobów WWW w indeksach wyszukiwarek (reszta – grey web) 2005 – Google posiada około serwerów przechowujących zawartość indeksu wyszukiwarki i lokalne kopie stron WWW, liczba datacenters - >100 (~60 w USA)

WUT TWG 2005 A = cała sieć WWW w zasięgu wyszukiwarki #1 i #2 B = indeks wyszukiwarki #1 C = indeks wyszukiwarki #2 B C n – liczba elementów w A, nieznana m – liczba elementów w B, znana o – liczba elementów w C, znana p – liczba elementów w B C, nieznana ale może być estymowana poprzez zadawanie tych samych zapytań do #1 i #2 Zakładamy iż zbiory B i C są tworzone losowo. Wtedy prawdopodobieństwo wybrania strony o i należącej do B jest: P(o i B) = m/n. Zatem wśród o elementów ze zbioru C powinno być o* P(o i B) elementów należących do B, zatem p= o* P(o i B), and n = (m*o)/p Nie musimy także znać dokładnie jednocześnie m i o – dla dużej liczby zapytań stosunek m i o powinien odpowiadać stosunkowi wielkości odpowiedzi. Pokrycie sieci przez indeksy

WUT TWG 2005 Proste podejścia do IR Wyszukiwanie dokładne wymaga indeksu pojęć, których można użyć w zapytaniu Najbardziej popularna metoda – zbiory odwrócone (inverted files) a b c d... z Bardzo szybkie Bardzo łatwo przy użyciu zbiorów odwróconych przetwarzać zapytania boolowskie Stosunkowo proste w implementacji Dostępne standardowe implementacje - Lucene

WUT TWG 2005 Fuzzy search Poszczególne dokumenty reprezentowane są jako wektory w przestrzeni atrybutów (słów, n-gramów itd.) Zapytania reprezentowane są także jako wektory w tej przestrzeni, potrzebne jest zatem mapowanie zapytanie – wektor Dzięki temu zapytanie może być zbiorem słów kluczowych, ale także dokumentem albo nawet zbiorem dokumentów Wynik to dokumenty najbliższe wektorowi zapytania (potrzebna zatem metryka) – np. Repozytorium Wyjściowe zapytanie IR Output Selekcja Output Proces ten może być powtarzany – relevance feedback – dzięki możliwości stworzenia zapytania na podstawie zbioru dokumentów

WUT TWG 2005 Struktura sieci WWW sieć WWW nie jest grafem przypadkowym (random graph) analiza grafu WWW pokazuje, iż (podobnie jak to ma miejsce z rozkładem występowania słów) można go modelować przez prawa potęgowe dalsza analiza pokazuje iż ma on wiele wspólnego z innymi modelami sieciowymi – społecznymi (six degrees of separation), rozprzestrzeniania się chorób itp. Albert Laszlo-Barabasi, Linked: How Everything Is Connected to Everything Else and What It Means Dzięki klasycznym metodom wyszukiwania zwykle otrzymamy interesujące nas dokumenty – pod warunkiem, że indeks wyszukiwarki jest kompletny Problem jaki najczęściej występuje, to zbyt duża liczba otrzymanych dokumentów (niska wartość wskaźnika precyzji) Zwiększenie jakości odpowiedzi wymagałoby dokładniejszej analizy treści dokumentów Można także wykorzystać informację nietekstową, zawartą w WWW sieć hiperpołączeń pomiędzy stronami (zakładamy, że ktoś już za nas wykonał analizę zawartości stron, jej wynik zawarty jest w grafie hiperpołączeń) odwiedziny stron przez użytkowników (szczególnie – użytkowników wyszukiwarki)

WUT TWG 2005 Niektóre podgrafy WWW wykazują interesującą strukturę – np. tzw. bipartite cores Odnajdywanie takich struktur może być pożyteczne – wydaje się jednak niemożliwe... 4 Fans 3 Centres Bipartite core C 4,3 350 milionów stron w WWW (Chakrabarti 1999) wzrost na początku XXI około 1 milion stron na dzień (Bharat WWW7) Update rate około 600GB czystego tekstu na dzień (Alexa 1997) Struktura sieci WWW

WUT TWG 2005 However:

WUT TWG 2005 Oszacujmy liczbę C 3,3 dla modelu sieci przypadkowej (100 milionów stron) : n=10 8, prawdopodobieństwo wystąpienia krawędzi (średnie out- degree = 10). Dla dowolnych 6 węzłów prawdopodobieństwo tego że formują C 3,3 = (10 -7 ) 9 = Liczba C 3,3 = Potrzebne są zatem inne modele, np. Raghavan et. al.: 1. Nowa strona dodaje hiperpołączenia poprzez kopiowanie z już istniejących stron 2. Sieć WWW to graf rzadki z lokalnymi gęstymi podgrafami W rzeczywistości (około 2000 r.) C 3,3 Random graph model

WUT TWG 2005 Analiza (hiper) połączeń Wyszukiwanie interesujących wzorców w grafach jest przydatne także w innych zastosowaniach Bibliometria – grafy cytowań prac naukowych Socjometria – sieci społeczne Collaborative Filtering – analiza podobieństw grafów reprezentujących upodobania różnych osób... Analiza hiperpołączeń w WWW (web mining): porządkowanie dokumentów w odpowiedzi: ranking wybór dokumentów do indeksowania: crawling klasyfikacja stron WWW wg. tematyki odnajdowanie stron podobnych odnajdowanie duplikatów stron

WUT TWG 2005 Ranking wyników odpowiedzi Ranking odpowiedzi powinien zależny być od relewantności do zapytania jakości poszczególnych stron Rozwiązanie naiwne: im większa liczba hiperpołączeń wchodzących do danej strony, tym większa jakość strony każde hiperpołączenie jest jednakowo istotne słabe wyniki empiryczne niezwykle podatne na manipulację Rozwiązanie lepsze: jakość hiperpołączeń jest związana z jakością stron które je zawierają w idealnym przypadku wszystkie strony są równie relewantne

WUT TWG 2005 Page Rank Larry Page, Siergiej Brin, 1998 PageRank R(p) strony p: gdzie - dampening factor, zwykle 0.1 lub 0.2 n – liczba węzłów w grafie G outdegree(q) – liczba krawędzi wychodzących z węzła p Rekurencja - obliczenie możliwe iteracyjnie, zwykle mniej niż 100 iteracji do osiągnięcia stanu stabilnego Wartości Page Rank nie są związane z zapytaniem – można zatem obliczać je co jakiś czas

WUT TWG 2005 Page Rank cont. P A B (1-d)* ( 1/4 PageRank strony A + 1/3 PageRank strony B ) +d/n

WUT TWG 2005 Page Rank cont. PageRank można interpretować jako opis zachowania użytkownika sieci podróżującego losowo po stronach WWW (random surfer) Użytkownik klika w losowo wybrane hiperlinki na stronach, z jednakowym prawdopodobieństwem. Od czasu do czasu nudzi się i przeskakuje na losową, dowolnie wybraną, stronę WWW Zachowanie takiego użytkownika można opisać jako proces Markowa p 1, p 2,p 3, … na grafie G, gdzie w każdym kroku: Każdy węzeł sieci może być węzłem startowym W węźle p i z prawdopodobieństwem, węzeł p i+1 jest wybierany losowo ze wszystkich węzłów G z prawdopodobieństwem 1-, węzeł p i+1 jest wybierany losowo z węzłów – następników p i w grafie G

WUT TWG 2005 HITS Jakość stron WWW można różnie interpretować Algorytm HITS (Kleinberg, 1999) oparty o spostrzeżenie iż istnieją dwa rodzaje dobrych stron WWW authority (wskazywane przez wiele innych stron) hub (wskazują na wiele innych stron) dobra strona authority wskazywana jest przez dobre strony hub dobre strony hub wskazują na dobre strony authority rekurencja – także obliczenia iteracyjne słabo nadaje się do obliczeń dotyczących całej sieci WWW może być wykorzystany do analizy podgrafu tworzonego przez strony znajdujące się w wyniku zapytania rozszerzenia – BHITS, WBHITS, CLEVER, ARC itd.

WUT TWG 2005 Sieć WWW zawiera także wiele informacji, które możemy wyszukiwać niekoniecznie na żądanie użytkownika Przykład – wyszukiwanie interesujących związków (np. frazeologicznych) w tekstach stron WWW Dual Iterative Pattern Relation Extraction (DIPRE) – Siergiey Brin Start with small sample of relations R 2. Find R occurrences and store as O 3. Generate new patterns P using O 4. Increase R by searching for relations that match patterns from P 5. Go to step 2 Web Mining - przykład

WUT TWG 2005 Wielkość sieci WWW jest na tyle duża, iż rozważano także rozproszone podejścia do tworzenia indeksów i wyszukiwania informacji: rozproszone wyszukiwarki sieciowe (związane głównie z systemami P2P) osobiste crawlery sieciowe Osobisty crawler nie może działać podobnie do uniwersalnego crawlera wyszukiwarki sieciowej – ograniczenia czasowe i sprzętowe. Powinien być raczej agentem wyręczającym użytkownika w procesie przeglądania zasobów sieciowych – musi zatem być wyposażony w mechanizm oceny relewancji przeglądanych stron. Focused crawling

WUT TWG 2005 Cooperative community Competitive community Focused Crawler (Chakrabarti, van den Berg, Dom99) wykorzystuje hierarchię klasyfikacji (z przykładowymi dokumentami) oznaczonymi jako istotne dla danego wyszukiwania wykorzystuje klasyfikator Bayesowski z modelem dokumentu bag-of-words do klasyfikacji aktualnie analizowanej strony poszczególne analizowane strony mogą odbiegać od tematu przez pewną liczbę skoków – liczba ta zależy od zgodności ostatniej dobrej strony z zapytaniem HITS używany do okresowego czyszczenia zebranych stron Focused crawling cont.

WUT TWG 2005 Wizualizacja dokumentów Peak represents many strongly related documents Water represents assorted documents, creating semantic noise Island represents several documents sharing similar subject, and separated from others - hence creating a group of interest

WUT TWG 2005 Wizualizacja – hyperbolic trees

WUT TWG 2005 grupowanie podobnych dokumentów wizualizacja pozycji słów kluczowych (TileBars, Berkeley) wizualizacja gęstych podgrafów... Wizualizacja cont.