Wprowadzenie do budowy usług informacyjnych Uniwersytet Łódzki Katedra Informatyki W. Bartkiewicz Wprowadzenie do budowy usług informacyjnych Wykład 4. Model probabilistyczny wyszukiwania informacji Uwaga: W bieżącej prezentacji obszernie wykorzystano slajdy z wykładu „Information Retrieval and Web Search”, prowadzonego na Stanford University przez Christophera Manninga i Prabhakara Raghavana.
Założenia modelu probabilistycznego Katedra Informatyki Model wektorowy opierał się na algebrze liniowej. W przeciwieństwie do niego model probabilistyczny bazuje statystyce Bayesowskiej. W praktyce, jak zobaczymy, oba te modele w znacznym stopniu się pokrywają. Ogólna zasada tworzenia rankingu: Mamy kolekcję dokumentów. Użytkownik wykonuje zapytanie. Zwracana jest lista dokumentów, uporządkowanych odpowiednio dla potrzeb informacyjnych użytkownika. W modelu probabilistycznym dokumenty rankingowane są według prawdopodobieństwa relewantności dla potrzeb informacyjnych użytkownika: P(relewantny | dokument, zapytanie)
Krótka powtórka z podstaw rachunku prawdopodobieństwa Katedra Informatyki Niezależność zdarzeń Niech a, b będą dwoma zdarzeniami z prawdopodobieństwami P(a) i P(b). Zdarzenia a i b są niezależne wtedy i tylko wtedy gdy: P(a b) = P(a)P(b) W ogólności a1, a2, ... , an są niezależne wtedy i tylko wtedy gdy: P(a1 a2 ... an) = P(a1)P(a2)...P(an) Warunkowe prawdopodobieństwo zdarzeń: P(a | b) jest prawdopodobieństwem a pod warunkiem b, nazywanym także prawdopodobieństwem warunkowym a przy danym b. P(a | b) = P(a b) / P(b) Niezależność warunkowa zdarzeń: Zdarzenia a1, ..., an są warunkowo niezależne wtedy i tylko wtedy gdy: P(ai | aj) = P(ai) dla wszystkich i oraz j.
Krótka powtórka z podstaw rachunku prawdopodobieństwa Katedra Informatyki Zdarzenia niezależne – przykład: a i b są wynikiem rzutu dwoma kostkami P(a=5 | b=3) = P(a=5) = 1/6 Zdarzenia zależne – przykład: t jest sumą dwu rzutów t = a + b P(t=8 | a=2) = 1/6 P(t=8 | a=1) = 0
Krótka powtórka z podstaw rachunku prawdopodobieństwa Katedra Informatyki Prawdopodobieństwo warunkowe a gdzie a jest zdarzeniem nie a x a y w b z b P(a) = x + y P(b) = w + x P(a | b) = x / (w + x) = P(a b) / P(b) P(a | b) P(b) = P(a b) = P(b | a) P(a)
Krótka powtórka z podstaw rachunku prawdopodobieństwa Katedra Informatyki Twierdzenie Bayesa a priori a posteriori
Krótka powtórka z podstaw rachunku prawdopodobieństwa Katedra Informatyki Twierdzenie Bayesa Przykład a Waga ponad 80 kg. b Wzrost ponad 180 cm. P(a | b) = x / (w+x) = x / P(b) P(b | a) = x / (x+y) = x / P(a) x = P(a b) Ponad 80 kg x y w z Ponad 180 cm
Krótka powtórka z podstaw rachunku prawdopodobieństwa Katedra Informatyki Szansa
Zasada rankingowania probabilistycznego Katedra Informatyki Podstawą teoretyczną wszystkich modeli probabilistycznych wyszukiwania informacji jest tzw. zasada rankingowania probabilistycznego (Probability Ranking Pronciple). Zgodnie z nią optymalne działanie systemu wyszukiwawczego może zostać osiągnięte poprzez rankingowanie dokumentów zgodnie z prawdopodobieństwem ich oceny jako relewantnych dla zapytania. Prawdopodobieństwa te powinny zostać oszacowane tak dokładnie, jak to jest możliwe na podstawie dostępnych do tego celu danych.
Zasada rankingowania probabilistycznego Katedra Informatyki Dla danego dokumentu d w kolekcji oznaczmy przez: R – zdarzenie polegające na tym, że dokument jest relewantny NR – zdarzenie polegające na tym, że jest on nierelewantny. Dla danego zapytania q i dokumentu d w kolekcji szacujemy prawdopodobieństwo, że użytkownik uzna d za relewantny P(R|d), a następnie sortujemy dokumenty zgodnie z wyznaczonymi prawdopodobieństwami. Zazwyczaj dokumenty ocenia się nie korzystając bezpośrednio z P(R|d), ale z szansy S(R|d) = P(R|d) / P(NR|d). Ponieważ interesuje nas ranking (porównanie względne) dokumentów, na ogół nie korzystamy nawet z szansy, ale tzw. RSV (Retrieval Status Value) – miary proporcjonalnej do prawdopodobieństwa relewancji (RSV ~ P(R|d)). Założenia (dyskusyjne): Relewantność każdego z dokumentów jest niezależna od relewantności innych dokumentów (tzn. każdy dokument może być rozważany w izolacji od innych). Boolowski model relewancji, tzn. dokument jest albo relewantny, albo nie.
Relewancja i twierdzenie Bayesa – podstawowe definicje Katedra Informatyki P(R|d), P(NR|d) – prawdopodobieństwo, że dokument d jest relewantny (nierelewantny). P(R), P(NR) – prawdopodobieństwo a priori wyszukania relewantnego (nierelewantnego) dokumentu. P(d|R), P(d|NR) – prawdopodobieństwo wystąpienia dokumentu d w zbiorze dokumentów relewantnych (nierelewantnych). P(d) – prawdopodobieństwo wystąpienia dokumentu d w kolekcji.
Model BIR Katedra Informatyki Model BIR (Binary Independence Retrieval) jest najczęściej stosowanym (i najprostszym) modelem probabilistycznym. Binary - dokumenty oraz zapytania reprezentowane są przez binarne wektory występowania termów – 1 jeśli dany term występuje w dokumencie (zapytaniu), 0 jeśli nie. Independence – termy występujące w opisie dokumentu są niezależne. Najbardziej problematyczne założenie. W zasadzie nigdy nie jest spełnione. BIR opiera się więc na naiwnym probabilistycznym modelu Bayesowskim.
Model BIR Katedra Informatyki Przyjmijmy, że dokumenty reprezentowane są przez binarne wektory występowania termów x = (x1, ..., xn), przy czym xi = 1, jeśli term i występuje w opisie dokumentu i, xi = 0, gdy nie. Podobnie zapytania reprezentowane są przez binarne wektory q = (q1, ..., qn). Dla danego zapytania q i dla każdego dokumentu wyznaczamy miarę RSV(q, x) ~ P(R | q, x), która posłuży nam następnie do sporządzenia rankingu dokumentów. Do stworzenia miary RSV wykorzystamy szansę oraz twierdzenie Bayesa:
Stałe dla danego zapytania Model BIR Katedra Informatyki Stałe dla danego zapytania Wymaga oszacowania Korzystamy z założenia niezależności
Model BIR Ponieważ xi jest równe albo 0 albo 1: Oznaczmy przez: Katedra Informatyki Ponieważ xi jest równe albo 0 albo 1: Oznaczmy przez: Załóżmy ponadto, że dla wszystkich termów nie występujących w zapytaniu (qi = 0) mamy: pi = ri.
Model BIR Katedra Informatyki Załóżmy ponadto, że dla wszystkich termów nie występujących w zapytaniu (qi = 0) mamy: pi = ri. Wówczas dla wszystkich termów nie występujących w zapytaniu (qi = 0) pi / ri = 1.
Model BIR Wszystkie termy dopasowane Nie dopasowane termy zapytania Katedra Informatyki Wszystkie termy dopasowane Nie dopasowane termy zapytania Wszystkie termy dopasowane Wszystkie termy zapytania
Model BIR Stałe dla zapytania Jedyny element, który musi Katedra Informatyki Jedyny element, który musi być obliczony do rankingu Stałe dla zapytania Retrieval Status Value:
Model BIR Katedra Informatyki Pomimo, że formuła wyszukiwania probabilistycznego wygląda w sposób złożony, widzimy, że jest to w zasadzie wariant modelu wektorowego, wykorzystujący nieco inną formułę obliczania wag termów niż tf*idf. Problemem podstawowym oczywiście jest oszacowanie współczynników ci, niezbędnych do wyznaczenia RSV dokumentu.
Model BIR Katedra Informatyki Załóżmy, że mamy pewien zbiór treningowy zapytań z informacją o relewancji dokumentów, które powinny zostać wyszukane w odpowiedzi na te zapytania. W takiej sytuacji możemy wyznaczyć współczynniki ci, z następującej tabeli, sporządzanej dla każdego termu i (Robertson i Sparck Jones). Oszacowania:
Model BIR Katedra Informatyki Niestety, w praktyce rzadko dysponujemy danymi dotyczącymi relewancji. Wyjątkiem jest interaktywna metoda modyfikacji zapytania, z wykorzystaniem tzw. sprzężenia relewancji. O sprzężeniu relewancji mówić będziemy na jednym z kolejnych wykładów. Współczynniki ci oszacowane muszą być wówczas wyłącznie na podstawie statystyk występowania termów w kolekcji dokumentów. Zazwyczaj liczba dokumentów nierelewantnych w kolekcji jest dużo większa niż relewantnych. Dla dużych wartości N, prawdopodobieństwo wystąpienia termu w dokumentach nierelewantnych może więc być szacowane przez n/N. (czyli przy założeniu, że wszystkie dokumenty są nierelewantne). Wówczas mamy: log (1– ri)/ri = log (N– n)/n ≈ log N/n = IDF! Musimy więc obliczyć wyłącznie prawdopodobieństwo wystąpienia termu w dokumentach relewantnych pi. Klasyczna metoda polega na użyciu iteracyjnej formuły, wyznaczającej wartość pi rekurencyjnie.
Model BIR Katedra Informatyki Wstępnie inicjujemy pi jako stałe dla każdego xi w zapytaniu. Ponieważ nie mamy żadnych informacji wstępnych, przyjmujemy wszystkie pi = 0.5. Jak już wcześniej wspomnieliśmy przyjmujemy również ri = n/N. Określamy przybliżenie zbioru dokumentów relewantnych. Wybieramy |V| dokumentów o najwyższym RSV wyznaczonym dla danych pi i ri. Niech Vi będzie wśród nich zbiorem dokumentów zawierających term xi. Obliczamy kolejne przybliżenia pi i ri. pi = | Xi | / |V|. ri = (n - |Vi |) / (N-|V|) Punkty 2 i 3 powtarzamy, aż do osiągnięcia zbieżności.