WUT TWG 2005 WEDT Wyszukiwanie informacji Wykład 9 Piotr Gawrysiak 2006.

WUT TWG 2005 WEDT Wyszukiwanie informacji Wykład 9 Piotr Gawrysiak pgawrysiak@supermedia.pl 2006

WUT TWG 2005 Wyszukiwanie informacji IR – information retrieval IR to przypadek szczególny klasyfikacji, w której mamy do czynienia jedynie z dwoma klasami dokumentów Dwa podejścia dokładne (exact match) – w większości wypadków związane z zastosowaniem jakiegoś języka wyszukiwania (czy tez raczej języka specyfikacji zapytań – query language) rozmyte (fuzzy) – wykorzystuje metody statystyczne do oceny odpowiedniości dokumentu do zapytania główny problem – konstruowanie zapytania Obecnie najważniejsze repozytorium w którym dokonuje się wyszukiwania to sieć WWW Trudności (oba wynikają z rozmiaru repozytorium) zapewnienie wysokiej relewancji odpowiedzi zapewnienie wysokiej kompletności odpowiedzi przedstawienie wyniku w zrozumiały i efektywny sposób

WUT TWG 2005 Indeksowanie sieci WWW 1999 - Scooter (AltaVista) : 1.5GB RAM, 30GB disk, 4x533 MHz Alpha, 1GB/s I/O (crawler) – 1 miesiąc na pełny recrawl 2000 - ~40% zasobów WWW w indeksach wyszukiwarek (reszta – grey web) 2005 – Google posiada około 100000 serwerów przechowujących zawartość indeksu wyszukiwarki i lokalne kopie stron WWW, liczba datacenters - >100 (~60 w USA)

WUT TWG 2005 A = cała sieć WWW w zasięgu wyszukiwarki #1 i #2 B = indeks wyszukiwarki #1 C = indeks wyszukiwarki #2 B C n – liczba elementów w A, nieznana m – liczba elementów w B, znana o – liczba elementów w C, znana p – liczba elementów w B C, nieznana ale może być estymowana poprzez zadawanie tych samych zapytań do #1 i #2 Zakładamy iż zbiory B i C są tworzone losowo. Wtedy prawdopodobieństwo wybrania strony o i należącej do B jest: P(o i B) = m/n. Zatem wśród o elementów ze zbioru C powinno być o* P(o i B) elementów należących do B, zatem p= o* P(o i B), and n = (m*o)/p Nie musimy także znać dokładnie jednocześnie m i o – dla dużej liczby zapytań stosunek m i o powinien odpowiadać stosunkowi wielkości odpowiedzi. Pokrycie sieci przez indeksy

WUT TWG 2005 Proste podejścia do IR Wyszukiwanie dokładne wymaga indeksu pojęć, których można użyć w zapytaniu Najbardziej popularna metoda – zbiory odwrócone (inverted files) a b c d... z Bardzo szybkie Bardzo łatwo przy użyciu zbiorów odwróconych przetwarzać zapytania boolowskie Stosunkowo proste w implementacji Dostępne standardowe implementacje - Lucene

WUT TWG 2005 Fuzzy search Poszczególne dokumenty reprezentowane są jako wektory w przestrzeni atrybutów (słów, n-gramów itd.) Zapytania reprezentowane są także jako wektory w tej przestrzeni, potrzebne jest zatem mapowanie zapytanie – wektor Dzięki temu zapytanie może być zbiorem słów kluczowych, ale także dokumentem albo nawet zbiorem dokumentów Wynik to dokumenty najbliższe wektorowi zapytania (potrzebna zatem metryka) – np. Repozytorium Wyjściowe zapytanie IR Output Selekcja Output Proces ten może być powtarzany – relevance feedback – dzięki możliwości stworzenia zapytania na podstawie zbioru dokumentów

WUT TWG 2005 Struktura sieci WWW sieć WWW nie jest grafem przypadkowym (random graph) analiza grafu WWW pokazuje, iż (podobnie jak to ma miejsce z rozkładem występowania słów) można go modelować przez prawa potęgowe dalsza analiza pokazuje iż ma on wiele wspólnego z innymi modelami sieciowymi – społecznymi (six degrees of separation), rozprzestrzeniania się chorób itp. Albert Laszlo-Barabasi, Linked: How Everything Is Connected to Everything Else and What It Means Dzięki klasycznym metodom wyszukiwania zwykle otrzymamy interesujące nas dokumenty – pod warunkiem, że indeks wyszukiwarki jest kompletny Problem jaki najczęściej występuje, to zbyt duża liczba otrzymanych dokumentów (niska wartość wskaźnika precyzji) Zwiększenie jakości odpowiedzi wymagałoby dokładniejszej analizy treści dokumentów Można także wykorzystać informację nietekstową, zawartą w WWW sieć hiperpołączeń pomiędzy stronami (zakładamy, że ktoś już za nas wykonał analizę zawartości stron, jej wynik zawarty jest w grafie hiperpołączeń) odwiedziny stron przez użytkowników (szczególnie – użytkowników wyszukiwarki)

WUT TWG 2005 Niektóre podgrafy WWW wykazują interesującą strukturę – np. tzw. bipartite cores Odnajdywanie takich struktur może być pożyteczne – wydaje się jednak niemożliwe... 4 Fans 3 Centres Bipartite core C 4,3 350 milionów stron w WWW (Chakrabarti 1999) wzrost na początku XXI około 1 milion stron na dzień (Bharat WWW7) Update rate około 600GB czystego tekstu na dzień (Alexa 1997) Struktura sieci WWW

WUT TWG 2005 However:

WUT TWG 2005 Oszacujmy liczbę C 3,3 dla modelu sieci przypadkowej (100 milionów stron) : n=10 8, prawdopodobieństwo wystąpienia krawędzi 10 -7 (średnie outdegree = 10). Dla dowolnych 6 węzłów prawdopodobieństwo tego że formują C 3,3 = (10 -7 ) 9 = 10 -63 Liczba C 3,3 = Potrzebne są zatem inne modele, np. Raghavan et. al.: 1. Nowa strona dodaje hiperpołączenia poprzez kopiowanie z już istniejących stron 2. Sieć WWW to graf rzadki z lokalnymi gęstymi podgrafami W rzeczywistości (około 2000 r.) 133000 C 3,3 Random graph model

WUT TWG 2005 Analiza (hiper) połączeń Wyszukiwanie interesujących wzorców w grafach jest przydatne także w innych zastosowaniach Bibliometria – grafy cytowań prac naukowych Socjometria – sieci społeczne Collaborative Filtering – analiza podobieństw grafów reprezentujących upodobania różnych osób... Analiza hiperpołączeń w WWW (web mining): porządkowanie dokumentów w odpowiedzi: ranking wybór dokumentów do indeksowania: crawling klasyfikacja stron WWW wg. tematyki odnajdowanie stron podobnych odnajdowanie duplikatów stron WWW...

WUT TWG 2005 Ranking wyników odpowiedzi Ranking odpowiedzi powinien zależny być od relewantności do zapytania jakości poszczególnych stron Rozwiązanie naiwne: im większa liczba hiperpołączeń wchodzących do danej strony, tym większa jakość strony każde hiperpołączenie jest jednakowo istotne słabe wyniki empiryczne niezwykle podatne na manipulację Rozwiązanie lepsze: jakość hiperpołączeń jest związana z jakością stron które je zawierają w idealnym przypadku wszystkie strony są równie relewantne

WUT TWG 2005 Page Rank Larry Page, Siergiej Brin, 1998 PageRank R(p) strony p: gdzie - dampening factor, zwykle 0.1 lub 0.2 n – liczba węzłów w grafie G outdegree(q) – liczba krawędzi wychodzących z węzła p Rekurencja - obliczenie możliwe iteracyjnie, zwykle mniej niż 100 iteracji do osiągnięcia stanu stabilnego Wartości Page Rank nie są związane z zapytaniem – można zatem obliczać je co jakiś czas

WUT TWG 2005 Page Rank cont. P A B (1-d)* ( 1/4 PageRank strony A + 1/3 PageRank strony B ) +d/n

WUT TWG 2005 Page Rank cont. PageRank można interpretować jako opis zachowania użytkownika sieci podróżującego losowo po stronach WWW (random surfer) Użytkownik klika w losowo wybrane hiperlinki na stronach, z jednakowym prawdopodobieństwem. Od czasu do czasu nudzi się i przeskakuje na losową, dowolnie wybraną, stronę WWW Zachowanie takiego użytkownika można opisać jako proces Markowa p 1, p 2,p 3, … na grafie G, gdzie w każdym kroku: Każdy węzeł sieci może być węzłem startowym W węźle p i z prawdopodobieństwem, węzeł p i+1 jest wybierany losowo ze wszystkich węzłów G z prawdopodobieństwem 1-, węzeł p i+1 jest wybierany losowo z węzłów – następników p i w grafie G

WUT TWG 2005 HITS Jakość stron WWW można różnie interpretować Algorytm HITS (Kleinberg, 1999) oparty o spostrzeżenie iż istnieją dwa rodzaje dobrych stron WWW authority (wskazywane przez wiele innych stron) hub (wskazują na wiele innych stron) dobra strona authority wskazywana jest przez dobre strony hub dobre strony hub wskazują na dobre strony authority rekurencja – także obliczenia iteracyjne słabo nadaje się do obliczeń dotyczących całej sieci WWW może być wykorzystany do analizy podgrafu tworzonego przez strony znajdujące się w wyniku zapytania rozszerzenia – BHITS, WBHITS, CLEVER, ARC itd.

WUT TWG 2005 Sieć WWW zawiera także wiele informacji, które możemy wyszukiwać niekoniecznie na żądanie użytkownika Przykład – wyszukiwanie interesujących związków (np. frazeologicznych) w tekstach stron WWW Dual Iterative Pattern Relation Extraction (DIPRE) – Siergiey Brin 1999 1. Start with small sample of relations R 2. Find R occurrences and store as O 3. Generate new patterns P using O 4. Increase R by searching for relations that match patterns from P 5. Go to step 2 Web Mining - przykład

WUT TWG 2005 Wielkość sieci WWW jest na tyle duża, iż rozważano także rozproszone podejścia do tworzenia indeksów i wyszukiwania informacji: rozproszone wyszukiwarki sieciowe (związane głównie z systemami P2P) osobiste crawlery sieciowe Osobisty crawler nie może działać podobnie do uniwersalnego crawlera wyszukiwarki sieciowej – ograniczenia czasowe i sprzętowe. Powinien być raczej agentem wyręczającym użytkownika w procesie przeglądania zasobów sieciowych – musi zatem być wyposażony w mechanizm oceny relewancji przeglądanych stron. Focused crawling

WUT TWG 2005 Cooperative community Competitive community Focused Crawler (Chakrabarti, van den Berg, Dom99) wykorzystuje hierarchię klasyfikacji (z przykładowymi dokumentami) oznaczonymi jako istotne dla danego wyszukiwania wykorzystuje klasyfikator Bayesowski z modelem dokumentu bag-of-words do klasyfikacji aktualnie analizowanej strony poszczególne analizowane strony mogą odbiegać od tematu przez pewną liczbę skoków – liczba ta zależy od zgodności ostatniej dobrej strony z zapytaniem HITS używany do okresowego czyszczenia zebranych stron Focused crawling cont.

WUT TWG 2005 Wizualizacja dokumentów Peak represents many strongly related documents Water represents assorted documents, creating semantic noise Island represents several documents sharing similar subject, and separated from others - hence creating a group of interest

WUT TWG 2005 Wizualizacja – hyperbolic trees

WUT TWG 2005 grupowanie podobnych dokumentów wizualizacja pozycji słów kluczowych (TileBars, Berkeley) wizualizacja gęstych podgrafów... Wizualizacja cont.

WUT TWG 2005 WEDT Wyszukiwanie informacji Wykład 9 Piotr Gawrysiak 2006.

Podobne prezentacje

Prezentacja na temat: "WUT TWG 2005 WEDT Wyszukiwanie informacji Wykład 9 Piotr Gawrysiak 2006."— Zapis prezentacji:

Podobne prezentacje

О projekcie

Zwrotny adres

Wejść

Zaloguj się poprzez sieć społeczną:

WUT TWG 2005 WEDT Wyszukiwanie informacji Wykład 9 Piotr Gawrysiak 2006.

Podobne prezentacje

Prezentacja na temat: "WUT TWG 2005 WEDT Wyszukiwanie informacji Wykład 9 Piotr Gawrysiak 2006."— Zapis prezentacji:

Podobne prezentacje

О projekcie

Zwrotny adres