Wprowadzenie do budowy usług informacyjnych

Slides:



Advertisements
Podobne prezentacje
Excel Narzędzia do analizy regresji
Advertisements

Modelowanie i symulacja
Funkcje tworzące są wygodnym narzędziem przy badaniu zmiennych losowych o wartościach całkowitych nieujemnych. Funkcje tworzące pierwszy raz badał de.
Joanna Sawicka Wydział Nauk Ekonomicznych, Uniwersytet Warszawski
Wprowadzenie do budowy usług informacyjnych
Wprowadzenie do budowy usług informacyjnych
Analiza współzależności zjawisk
Równanie różniczkowe zupełne i równania do niego sprowadzalne
Rachunek prawdopodobieństwa 2
Zmienne losowe i ich rozkłady
Wykład 6 Najkrótsza ścieżka w grafie z jednym źródłem
VI Rachunek predykatów
BUDOWA MODELU EKONOMETRYCZNEGO
Badania operacyjne. Wykład 1
Badania operacyjne. Wykład 2
FUNKCJE INFOMACYJNE KOMÓRKA CZY.ADAR KOMÓRKA CZY.ADAR NR. BŁĘDU CZY.TEKST NR. BŁĘDU CZY.TEKST INFO L INFO L CZY. PUSTA BRAK CZY. PUSTA BRAK CZY. BŁ TYP.
Elementy Modelowania Matematycznego
Macierze Maria Guzik.
Algorytm Rochio’a.
Metody Sztucznej Inteligencji w Sterowaniu 2009/2010Optymalizacja miary efektywności działania sztucznych sieci neuronowych Dr hab. inż. Kazimierz Duzinkiewicz,
Komputerowe Wspomaganie Decyzji 2010/2011 Zagadnienia wielocelowe II Dr hab. inż. Kazimierz Duzinkiewicz, Katedra Inżynierii Systemów Sterowania 1 Metody.
Dane informacyjne: Gimnazjum im. Marii Skłodowskiej-Curie
Elementy Rachunku Prawdopodobieństwa c.d.
Klasyfikacja Obcinanie drzewa Naiwny klasyfikator Bayes’a kNN
Odkrywanie wzorców sekwencji
Klasyfikacja dokumentów za pomocą sieci radialnych Paweł Rokoszny Emil Hornung Michał Ziober Tomasz Bilski.
Klasyfikacja dokumentów za pomocą sieci radialnych
Klasyfikacja dokumentów za pomocą sieci radialnych Paweł Rokoszny Emil Hornung Michał Ziober Tomasz Bilski.
Klasyfikacja dokumentów za pomocą sieci radialnych Paweł Rokoszny Emil Hornung Michał Ziober Tomasz Bilski.
Metody Symulacyjne w Telekomunikacji (MEST) Wykład 6/7: Analiza statystyczna wyników symulacyjnych  Dr inż. Halina Tarasiuk
Bibliotekarz – odkrywca. Agenda Proces tworzenia informacji Indeksy wyszukiwawcze Budowa rekordu w Promaxie Zapytania.
Zależności funkcyjne.
Hipotezy statystyczne
Hipoteza cegiełek, k-ramienny bandyta, minimalny problem zwodniczy
Elementy Rachunku Prawdopodobieństwa i Statystyki
Elementy Rachunku Prawdopodobieństwa i Statystyki
Elementy Rachunku Prawdopodobieństwa i Statystyki
BADANIE STATYSTYCZNE Badanie statystyczne to proces pozyskiwania danych na temat rozkładu cechy statystycznej w populacji. Badanie może mieć charakter:
Równania rekurencyjne
Sieci bayesowskie Wykonali: Mateusz Kaflowski Michał Grabarczyk.
Elementy Rachunku Prawdopodobieństwa i Statystyki
Systemy wspomagania decyzji
Statystyka – zadania 4 Janusz Górczyński.
Projekt AS KOMPETENCJI jest współfinansowany przez Unię Europejską w ramach środków Europejskiego Funduszu Społecznego Program Operacyjny Kapitał Ludzki.
Modelowanie i identyfikacja 2010/2011Optymalizacja miary efektywności działania sztucznych sieci neuronowych Dr hab. inż. Kazimierz Duzinkiewicz, Katedra.
DOŚWIADCZENIA LOSOWE.
II. Matematyczne podstawy MK
Algorytmy i Struktury Danych
Model obiektowy bazy danych
Metody matematyczne w Inżynierii Chemicznej
Wnioskowanie statystyczne
Zagadnienia AI wykład 2.
Prawdopodobieństwo.
Zarządzanie projektami
Statystyczna analiza danych w praktyce
Statystyczna analiza danych
Statystyczna analiza danych
Ćwiczenie 2 Planowanie zapotrzebowania materiałowego
Przeprowadzenie badań niewyczerpujących, (częściowych – prowadzonych na podstawie próby losowej), nie daje podstaw do formułowania stanowczych stwierdzeń.
Treść dzisiejszego wykładu l Klasyfikacja zmiennych modelu wielorównaniowego l Klasyfikacja modeli wielorównaniowych l Postać strukturalna i zredukowana.
© Prof. Antoni Kozioł, Wydział Chemiczny Politechniki Wrocławskiej MATEMATYCZNE MODELOWANIE PROCESÓW BIOTECHNOLOGICZNYCH Temat – 5 Modelowanie różniczkowe.
Treść dzisiejszego wykładu l Szeregi stacjonarne, l Zintegrowanie szeregu, l Kointegracja szeregów.
STATYSTYKA – kurs podstawowy wykład 11
Struktury i algorytmy wspomagania decyzji
Rodzaje zmian zachodzących w otoczeniu przedsiębiorstwa:
Matematyka przed egzaminem czyli samouczek dla każdego
Metody matematyczne w Inżynierii Chemicznej
Indeksy.
Jednorównaniowy model regresji liniowej
Zarządzanie projektami
Zapis prezentacji:

Wprowadzenie do budowy usług informacyjnych Uniwersytet Łódzki Katedra Informatyki W. Bartkiewicz Wprowadzenie do budowy usług informacyjnych Wykład 4. Model probabilistyczny wyszukiwania informacji Uwaga: W bieżącej prezentacji obszernie wykorzystano slajdy z wykładu „Information Retrieval and Web Search”, prowadzonego na Stanford University przez Christophera Manninga i Prabhakara Raghavana.

Założenia modelu probabilistycznego Katedra Informatyki Model wektorowy opierał się na algebrze liniowej. W przeciwieństwie do niego model probabilistyczny bazuje statystyce Bayesowskiej. W praktyce, jak zobaczymy, oba te modele w znacznym stopniu się pokrywają. Ogólna zasada tworzenia rankingu: Mamy kolekcję dokumentów. Użytkownik wykonuje zapytanie. Zwracana jest lista dokumentów, uporządkowanych odpowiednio dla potrzeb informacyjnych użytkownika. W modelu probabilistycznym dokumenty rankingowane są według prawdopodobieństwa relewantności dla potrzeb informacyjnych użytkownika: P(relewantny | dokument, zapytanie)

Krótka powtórka z podstaw rachunku prawdopodobieństwa Katedra Informatyki Niezależność zdarzeń Niech a, b będą dwoma zdarzeniami z prawdopodobieństwami P(a) i P(b). Zdarzenia a i b są niezależne wtedy i tylko wtedy gdy: P(a  b) = P(a)P(b) W ogólności a1, a2, ... , an są niezależne wtedy i tylko wtedy gdy: P(a1  a2  ...  an) = P(a1)P(a2)...P(an) Warunkowe prawdopodobieństwo zdarzeń: P(a | b) jest prawdopodobieństwem a pod warunkiem b, nazywanym także prawdopodobieństwem warunkowym a przy danym b. P(a | b) = P(a  b) / P(b) Niezależność warunkowa zdarzeń: Zdarzenia a1, ..., an są warunkowo niezależne wtedy i tylko wtedy gdy: P(ai | aj) = P(ai) dla wszystkich i oraz j.

Krótka powtórka z podstaw rachunku prawdopodobieństwa Katedra Informatyki Zdarzenia niezależne – przykład: a i b są wynikiem rzutu dwoma kostkami P(a=5 | b=3) = P(a=5) = 1/6 Zdarzenia zależne – przykład: t jest sumą dwu rzutów t = a + b P(t=8 | a=2) = 1/6 P(t=8 | a=1) = 0

Krótka powtórka z podstaw rachunku prawdopodobieństwa Katedra Informatyki Prawdopodobieństwo warunkowe a gdzie a jest zdarzeniem nie a x a y w b z b P(a) = x + y P(b) = w + x P(a | b) = x / (w + x) = P(a  b) / P(b) P(a | b) P(b) = P(a  b) = P(b | a) P(a)

Krótka powtórka z podstaw rachunku prawdopodobieństwa Katedra Informatyki Twierdzenie Bayesa a priori a posteriori

Krótka powtórka z podstaw rachunku prawdopodobieństwa Katedra Informatyki Twierdzenie Bayesa Przykład a Waga ponad 80 kg. b Wzrost ponad 180 cm. P(a | b) = x / (w+x) = x / P(b) P(b | a) = x / (x+y) = x / P(a) x = P(a  b) Ponad 80 kg x y w z Ponad 180 cm

Krótka powtórka z podstaw rachunku prawdopodobieństwa Katedra Informatyki Szansa

Zasada rankingowania probabilistycznego Katedra Informatyki Podstawą teoretyczną wszystkich modeli probabilistycznych wyszukiwania informacji jest tzw. zasada rankingowania probabilistycznego (Probability Ranking Pronciple). Zgodnie z nią optymalne działanie systemu wyszukiwawczego może zostać osiągnięte poprzez rankingowanie dokumentów zgodnie z prawdopodobieństwem ich oceny jako relewantnych dla zapytania. Prawdopodobieństwa te powinny zostać oszacowane tak dokładnie, jak to jest możliwe na podstawie dostępnych do tego celu danych.

Zasada rankingowania probabilistycznego Katedra Informatyki Dla danego dokumentu d w kolekcji oznaczmy przez: R – zdarzenie polegające na tym, że dokument jest relewantny NR – zdarzenie polegające na tym, że jest on nierelewantny. Dla danego zapytania q i dokumentu d w kolekcji szacujemy prawdopodobieństwo, że użytkownik uzna d za relewantny P(R|d), a następnie sortujemy dokumenty zgodnie z wyznaczonymi prawdopodobieństwami. Zazwyczaj dokumenty ocenia się nie korzystając bezpośrednio z P(R|d), ale z szansy S(R|d) = P(R|d) / P(NR|d). Ponieważ interesuje nas ranking (porównanie względne) dokumentów, na ogół nie korzystamy nawet z szansy, ale tzw. RSV (Retrieval Status Value) – miary proporcjonalnej do prawdopodobieństwa relewancji (RSV ~ P(R|d)). Założenia (dyskusyjne): Relewantność każdego z dokumentów jest niezależna od relewantności innych dokumentów (tzn. każdy dokument może być rozważany w izolacji od innych). Boolowski model relewancji, tzn. dokument jest albo relewantny, albo nie.

Relewancja i twierdzenie Bayesa – podstawowe definicje Katedra Informatyki P(R|d), P(NR|d) – prawdopodobieństwo, że dokument d jest relewantny (nierelewantny). P(R), P(NR) – prawdopodobieństwo a priori wyszukania relewantnego (nierelewantnego) dokumentu. P(d|R), P(d|NR) – prawdopodobieństwo wystąpienia dokumentu d w zbiorze dokumentów relewantnych (nierelewantnych). P(d) – prawdopodobieństwo wystąpienia dokumentu d w kolekcji.

Model BIR Katedra Informatyki Model BIR (Binary Independence Retrieval) jest najczęściej stosowanym (i najprostszym) modelem probabilistycznym. Binary - dokumenty oraz zapytania reprezentowane są przez binarne wektory występowania termów – 1 jeśli dany term występuje w dokumencie (zapytaniu), 0 jeśli nie. Independence – termy występujące w opisie dokumentu są niezależne. Najbardziej problematyczne założenie. W zasadzie nigdy nie jest spełnione. BIR opiera się więc na naiwnym probabilistycznym modelu Bayesowskim.

Model BIR Katedra Informatyki Przyjmijmy, że dokumenty reprezentowane są przez binarne wektory występowania termów x = (x1, ..., xn), przy czym xi = 1, jeśli term i występuje w opisie dokumentu i, xi = 0, gdy nie. Podobnie zapytania reprezentowane są przez binarne wektory q = (q1, ..., qn). Dla danego zapytania q i dla każdego dokumentu wyznaczamy miarę RSV(q, x) ~ P(R | q, x), która posłuży nam następnie do sporządzenia rankingu dokumentów. Do stworzenia miary RSV wykorzystamy szansę oraz twierdzenie Bayesa:

Stałe dla danego zapytania Model BIR Katedra Informatyki Stałe dla danego zapytania Wymaga oszacowania Korzystamy z założenia niezależności

Model BIR Ponieważ xi jest równe albo 0 albo 1: Oznaczmy przez: Katedra Informatyki Ponieważ xi jest równe albo 0 albo 1: Oznaczmy przez: Załóżmy ponadto, że dla wszystkich termów nie występujących w zapytaniu (qi = 0) mamy: pi = ri.

Model BIR Katedra Informatyki Załóżmy ponadto, że dla wszystkich termów nie występujących w zapytaniu (qi = 0) mamy: pi = ri. Wówczas dla wszystkich termów nie występujących w zapytaniu (qi = 0) pi / ri = 1.

Model BIR Wszystkie termy dopasowane Nie dopasowane termy zapytania Katedra Informatyki Wszystkie termy dopasowane Nie dopasowane termy zapytania Wszystkie termy dopasowane Wszystkie termy zapytania

Model BIR Stałe dla zapytania Jedyny element, który musi Katedra Informatyki Jedyny element, który musi być obliczony do rankingu Stałe dla zapytania Retrieval Status Value:

Model BIR Katedra Informatyki Pomimo, że formuła wyszukiwania probabilistycznego wygląda w sposób złożony, widzimy, że jest to w zasadzie wariant modelu wektorowego, wykorzystujący nieco inną formułę obliczania wag termów niż tf*idf. Problemem podstawowym oczywiście jest oszacowanie współczynników ci, niezbędnych do wyznaczenia RSV dokumentu.

Model BIR Katedra Informatyki Załóżmy, że mamy pewien zbiór treningowy zapytań z informacją o relewancji dokumentów, które powinny zostać wyszukane w odpowiedzi na te zapytania. W takiej sytuacji możemy wyznaczyć współczynniki ci, z następującej tabeli, sporządzanej dla każdego termu i (Robertson i Sparck Jones). Oszacowania:

Model BIR Katedra Informatyki Niestety, w praktyce rzadko dysponujemy danymi dotyczącymi relewancji. Wyjątkiem jest interaktywna metoda modyfikacji zapytania, z wykorzystaniem tzw. sprzężenia relewancji. O sprzężeniu relewancji mówić będziemy na jednym z kolejnych wykładów. Współczynniki ci oszacowane muszą być wówczas wyłącznie na podstawie statystyk występowania termów w kolekcji dokumentów. Zazwyczaj liczba dokumentów nierelewantnych w kolekcji jest dużo większa niż relewantnych. Dla dużych wartości N, prawdopodobieństwo wystąpienia termu w dokumentach nierelewantnych może więc być szacowane przez n/N. (czyli przy założeniu, że wszystkie dokumenty są nierelewantne). Wówczas mamy: log (1– ri)/ri = log (N– n)/n ≈ log N/n = IDF! Musimy więc obliczyć wyłącznie prawdopodobieństwo wystąpienia termu w dokumentach relewantnych pi. Klasyczna metoda polega na użyciu iteracyjnej formuły, wyznaczającej wartość pi rekurencyjnie.

Model BIR Katedra Informatyki Wstępnie inicjujemy pi jako stałe dla każdego xi w zapytaniu. Ponieważ nie mamy żadnych informacji wstępnych, przyjmujemy wszystkie pi = 0.5. Jak już wcześniej wspomnieliśmy przyjmujemy również ri = n/N. Określamy przybliżenie zbioru dokumentów relewantnych. Wybieramy |V| dokumentów o najwyższym RSV wyznaczonym dla danych pi i ri. Niech Vi będzie wśród nich zbiorem dokumentów zawierających term xi. Obliczamy kolejne przybliżenia pi i ri. pi = | Xi | / |V|. ri = (n - |Vi |) / (N-|V|) Punkty 2 i 3 powtarzamy, aż do osiągnięcia zbieżności.