Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

Wprowadzenie do budowy usług informacyjnych W. Bartkiewicz Wykład 4. Model probabilistyczny wyszukiwania informacji Uwaga: W bieżącej prezentacji obszernie.

Podobne prezentacje


Prezentacja na temat: "Wprowadzenie do budowy usług informacyjnych W. Bartkiewicz Wykład 4. Model probabilistyczny wyszukiwania informacji Uwaga: W bieżącej prezentacji obszernie."— Zapis prezentacji:

1 Wprowadzenie do budowy usług informacyjnych W. Bartkiewicz Wykład 4. Model probabilistyczny wyszukiwania informacji Uwaga: W bieżącej prezentacji obszernie wykorzystano slajdy z wykładu Information Retrieval and Web Search, prowadzonego na Stanford University przez Christophera Manninga i Prabhakara Raghavana.

2 Założenia modelu probabilistycznego Model wektorowy opierał się na algebrze liniowej. W przeciwieństwie do niego model probabilistyczny bazuje statystyce Bayesowskiej. –W praktyce, jak zobaczymy, oba te modele w znacznym stopniu się pokrywają. Ogólna zasada tworzenia rankingu: –Mamy kolekcję dokumentów. –Użytkownik wykonuje zapytanie. –Zwracana jest lista dokumentów, uporządkowanych odpowiednio dla potrzeb informacyjnych użytkownika. W modelu probabilistycznym dokumenty rankingowane są według prawdopodobieństwa relewantności dla potrzeb informacyjnych użytkownika: P(relewantny | dokument, zapytanie)

3 Krótka powtórka z podstaw rachunku prawdopodobieństwa Niezależność zdarzeń –Niech a, b będą dwoma zdarzeniami z prawdopodobieństwami P(a) i P(b). –Zdarzenia a i b są niezależne wtedy i tylko wtedy gdy: P(a b) = P(a)P(b) –W ogólności a 1, a 2,..., a n są niezależne wtedy i tylko wtedy gdy: P(a 1 a 2... a n ) = P(a 1 )P(a 2 )...P(a n ) Warunkowe prawdopodobieństwo zdarzeń: –P(a | b) jest prawdopodobieństwem a pod warunkiem b, nazywanym także prawdopodobieństwem warunkowym a przy danym b. P(a | b) = P(a b) / P(b) Niezależność warunkowa zdarzeń: –Zdarzenia a 1,..., a n są warunkowo niezależne wtedy i tylko wtedy gdy: P(a i | a j ) = P(a i ) dla wszystkich i oraz j.

4 Krótka powtórka z podstaw rachunku prawdopodobieństwa Zdarzenia niezależne – przykład: a i b są wynikiem rzutu dwoma kostkami P(a=5 | b=3) = P(a=5) = 1 / 6 Zdarzenia zależne – przykład: a i b są wynikiem rzutu dwoma kostkami t jest sumą dwu rzutów t = a + b P(t=8 | a=2) = 1 / 6 P(t=8 | a=1) = 0

5 Krótka powtórka z podstaw rachunku prawdopodobieństwa P(a) = x + y P(b) = w + x P(a | b) = x / (w + x) = P(a b) / P(b) P(a | b) P(b) = P(a b) = P(b | a) P(a) a b w z y x a b gdzie a jest zdarzeniem nie a Prawdopodobieństwo warunkowe

6 Krótka powtórka z podstaw rachunku prawdopodobieństwa Twierdzenie Bayesa a posteriori a priori

7 Krótka powtórka z podstaw rachunku prawdopodobieństwa Twierdzenie Bayesa Przykład a Waga ponad 80 kg. b Wzrost ponad 180 cm. Ponad 80 kg Ponad 180 cm w z y x P(a | b) = x / (w+x) = x / P(b) P(b | a) = x / (x+y) = x / P(a) x = P(a b)

8 Krótka powtórka z podstaw rachunku prawdopodobieństwa Szansa

9 Zasada rankingowania probabilistycznego Podstawą teoretyczną wszystkich modeli probabilistycznych wyszukiwania informacji jest tzw. zasada rankingowania probabilistycznego (Probability Ranking Pronciple). Zgodnie z nią optymalne działanie systemu wyszukiwawczego może zostać osiągnięte poprzez rankingowanie dokumentów zgodnie z prawdopodobieństwem ich oceny jako relewantnych dla zapytania. –Prawdopodobieństwa te powinny zostać oszacowane tak dokładnie, jak to jest możliwe na podstawie dostępnych do tego celu danych.

10 Zasada rankingowania probabilistycznego Dla danego dokumentu d w kolekcji oznaczmy przez: –R – zdarzenie polegające na tym, że dokument jest relewantny –NR – zdarzenie polegające na tym, że jest on nierelewantny. Dla danego zapytania q i dokumentu d w kolekcji szacujemy prawdopodobieństwo, że użytkownik uzna d za relewantny P(R|d), a następnie sortujemy dokumenty zgodnie z wyznaczonymi prawdopodobieństwami. –Zazwyczaj dokumenty ocenia się nie korzystając bezpośrednio z P(R|d), ale z szansy S(R|d) = P(R|d) / P(NR|d). –Ponieważ interesuje nas ranking (porównanie względne) dokumentów, na ogół nie korzystamy nawet z szansy, ale tzw. RSV (Retrieval Status Value) – miary proporcjonalnej do prawdopodobieństwa relewancji (RSV ~ P(R|d)). Założenia (dyskusyjne): –Relewantność każdego z dokumentów jest niezależna od relewantności innych dokumentów (tzn. każdy dokument może być rozważany w izolacji od innych). –Boolowski model relewancji, tzn. dokument jest albo relewantny, albo nie.

11 Relewancja i twierdzenie Bayesa – podstawowe definicje P(R|d), P(NR|d) – prawdopodobieństwo, że dokument d jest relewantny (nierelewantny). P(R), P(NR) – prawdopodobieństwo a priori wyszukania relewantnego (nierelewantnego) dokumentu. P(d|R), P(d|NR) – prawdopodobieństwo wystąpienia dokumentu d w zbiorze dokumentów relewantnych (nierelewantnych). P(d) – prawdopodobieństwo wystąpienia dokumentu d w kolekcji.

12 Model BIR Model BIR (Binary Independence Retrieval) jest najczęściej stosowanym (i najprostszym) modelem probabilistycznym. –Binary - dokumenty oraz zapytania reprezentowane są przez binarne wektory występowania termów – 1 jeśli dany term występuje w dokumencie (zapytaniu), 0 jeśli nie. –Independence – termy występujące w opisie dokumentu są niezależne. Najbardziej problematyczne założenie. W zasadzie nigdy nie jest spełnione. BIR opiera się więc na naiwnym probabilistycznym modelu Bayesowskim.

13 Model BIR Przyjmijmy, że dokumenty reprezentowane są przez binarne wektory występowania termów x = (x 1,..., x n ), przy czym x i = 1, jeśli term i występuje w opisie dokumentu i, x i = 0, gdy nie. –Podobnie zapytania reprezentowane są przez binarne wektory q = (q 1,..., q n ). Dla danego zapytania q i dla każdego dokumentu wyznaczamy miarę RSV(q, x) ~ P(R | q, x), która posłuży nam następnie do sporządzenia rankingu dokumentów. Do stworzenia miary RSV wykorzystamy szansę oraz twierdzenie Bayesa:

14 Model BIR Korzystamy z założenia niezależności Stałe dla danego zapytania Wymaga oszacowania

15 Model BIR Ponieważ x i jest równe albo 0 albo 1: Oznaczmy przez: Załóżmy ponadto, że dla wszystkich termów nie występujących w zapytaniu (q i = 0) mamy: p i = r i.

16 Model BIR Załóżmy ponadto, że dla wszystkich termów nie występujących w zapytaniu (q i = 0) mamy: p i = r i. Wówczas dla wszystkich termów nie występujących w zapytaniu (q i = 0) p i / r i = 1.

17 Model BIR Wszystkie termy dopasowane Nie dopasowane termy zapytania Wszystkie termy dopasowane Wszystkie termy zapytania

18 Model BIR Stałe dla zapytania Jedyny element, który musi być obliczony do rankingu Retrieval Status Value:

19 Model BIR Pomimo, że formuła wyszukiwania probabilistycznego wygląda w sposób złożony, widzimy, że jest to w zasadzie wariant modelu wektorowego, wykorzystujący nieco inną formułę obliczania wag termów niż tf*idf. Problemem podstawowym oczywiście jest oszacowanie współczynników c i, niezbędnych do wyznaczenia RSV dokumentu.

20 Model BIR Załóżmy, że mamy pewien zbiór treningowy zapytań z informacją o relewancji dokumentów, które powinny zostać wyszukane w odpowiedzi na te zapytania. W takiej sytuacji możemy wyznaczyć współczynniki c i, z następującej tabeli, sporządzanej dla każdego termu i (Robertson i Sparck Jones). Oszacowania:

21 Model BIR Niestety, w praktyce rzadko dysponujemy danymi dotyczącymi relewancji. –Wyjątkiem jest interaktywna metoda modyfikacji zapytania, z wykorzystaniem tzw. sprzężenia relewancji. O sprzężeniu relewancji mówić będziemy na jednym z kolejnych wykładów. Współczynniki c i oszacowane muszą być wówczas wyłącznie na podstawie statystyk występowania termów w kolekcji dokumentów. Zazwyczaj liczba dokumentów nierelewantnych w kolekcji jest dużo większa niż relewantnych. –Dla dużych wartości N, prawdopodobieństwo wystąpienia termu w dokumentach nierelewantnych może więc być szacowane przez n/N. (czyli przy założeniu, że wszystkie dokumenty są nierelewantne). –Wówczas mamy: log (1– r i )/r i = log (N– n)/n log N/n = IDF! Musimy więc obliczyć wyłącznie prawdopodobieństwo wystąpienia termu w dokumentach relewantnych p i. Klasyczna metoda polega na użyciu iteracyjnej formuły, wyznaczającej wartość p i rekurencyjnie.

22 Model BIR 1.Wstępnie inicjujemy p i jako stałe dla każdego x i w zapytaniu. –Ponieważ nie mamy żadnych informacji wstępnych, przyjmujemy wszystkie p i = 0.5. Jak już wcześniej wspomnieliśmy przyjmujemy również r i = n/N. 2.Określamy przybliżenie zbioru dokumentów relewantnych. –Wybieramy |V| dokumentów o najwyższym RSV wyznaczonym dla danych p i i r i. –Niech V i będzie wśród nich zbiorem dokumentów zawierających term x i. 3.Obliczamy kolejne przybliżenia p i i r i. –p i = | X i | / |V|. –r i = (n - |V i |) / (N-|V|) 4.Punkty 2 i 3 powtarzamy, aż do osiągnięcia zbieżności.


Pobierz ppt "Wprowadzenie do budowy usług informacyjnych W. Bartkiewicz Wykład 4. Model probabilistyczny wyszukiwania informacji Uwaga: W bieżącej prezentacji obszernie."

Podobne prezentacje


Reklamy Google