Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

Wprowadzenie do budowy usług informacyjnych W. Bartkiewicz Wykład 5. Reformulacja zapytań Sprzężenie relewancji Uwaga: W bieżącej prezentacji obszernie.

Podobne prezentacje


Prezentacja na temat: "Wprowadzenie do budowy usług informacyjnych W. Bartkiewicz Wykład 5. Reformulacja zapytań Sprzężenie relewancji Uwaga: W bieżącej prezentacji obszernie."— Zapis prezentacji:

1 Wprowadzenie do budowy usług informacyjnych W. Bartkiewicz Wykład 5. Reformulacja zapytań Sprzężenie relewancji Uwaga: W bieżącej prezentacji obszernie wykorzystano slajdy z wykładu Information Retrieval and Web Search, prowadzonego na Stanford University przez Christophera Manninga i Prabhakara Raghavana.

2 Niejednoznaczność zapytań Opisy dokumentów oraz termy indeksujące stanowią określenia pochodzące z języka naturalnego. –Problem – nieprecyzja języka naturalnego. Ponieważ systemy wyszukiwawcze specyfikowane są na poziomie leksykalnym, a nie pojęciowym, pojawia się problem dopasowania tych samych (lub powiązanych) pojęć wyspecyfikowanych w zapytaniu i w opisie dokumentu z wykorzystaniem nieprecyzyjnych (np. różnych) słów. Podstawowe typy relacji leksykalnych: –Homonimy (polisemia) – wiele znaczeń tego samego słowa. –Synonimy (wyrazy bliskoznaczne) – różne sposoby wyrażenia tych samych (blisko powiązanych) pojęć. –Metonimy – użycie aspektu pojęcia w znaczeniu całości (np. pałac prezydencki ogłosił..., do laski marszałkowskiej zgłoszono projekt...). –Hiponimy (hipernimy) – słowa opisujące pojęcia ogólniejsze i bardziej szczegółowe. –Meronimy – słowa opisujące pojęcia powiązane relacją całość – element. –Antonimy – słowa przeciwstawne.

3 Reformulacja zapytań Ludzie rozwiązują problemy nieprecyzji leksykalnej z wykorzystaniem kontekstu. –Modelowanie kontekstu nie jest łatwe. –Problem – zapytania użytkowników są często krótkie, złożone z jednego, dwu termów – brak kontekstu. –Dostarczanie kontekstu z wykorzystaniem reformulacji zapytań Rozszerzanie zapytania – dodawanie do niego dodatkowych termów (lub zmiana wag termów zapytania) –Sprzężenie relewancji – wykorzystanie informacji o relewancji dokumentów, dostarczonej przez użytkownika. –Analiza globalna – modyfikacja zapytania z wykorzystaniem tezaurusów, zawierających globalne zależności między termami, uzyskane na podstawie analizy językowej lub zawartości całej kolekcji. –Analiza lokalna – modyfikacja zapytania na podstawie lokalnych zależności między termami, związanymi z zapytaniem. Przekształcenie zapytania z przestrzeni słów do przestrzeni pojęć: –Algebraiczne metody nienadzorowane, np. LSI (Latent Semantic Indexing) –Metody formowania pojęć, oparte na klasyfikacji i grupowaniu termów.

4 Sprzężenie relewancji Sprzężenie relewancji: Użytkownik dostarcza informacji o relewancji dokumentów we wstępnym zbiorze wynikowym: –Użytkownik zadaje (krótkie, proste) zapytanie. –System znajduje zbiór dokumentów będący wynikiem zapytania. –Użytkownik w zbiorze wynikowy wskazuje kilka dokumentów relewantnych i (czasami) nierelewantnych. –Na podstawie informacji o relewancji oraz wstępnego zapytania, system oblicza lepszą reprezentację potrzeby informacyjnej użytkownika. –Na podstawie zmodyfikowanego zapytania określany jest nowy zbiór wynikowy. –Procedura ta może być powtarzana kilkukrotnie, w iteracyjnym procesie dochodzenia do jak najlepszego wyniku. Pomysł: Trudno sformułować dobre zapytanie nie mając szczegółowej wiedzy o kolekcji dokumentów, tak więc dochodzimy do niego w procesie iteracyjnym.

5 Architektura sprzężenia relewancji Rankings System IR Kolekcja dokumentów Ranking dokumentów 1. Doc1 2. Doc2 3. Doc3. 1. Doc1 2. Doc2 3. Doc3. Sprzężenie Zapyta nie Nowe zapytanie Nowy ranking 1. Doc2 2. Doc4 3. Doc5. Reformulacja zapytania

6 Reformulacja zapytania Automatyczna modyfikacja zapytania: –Ekspansja zapytania: Dodawanie nowych termów wybranych z dokumentów wskazanych jako relewantne. –Modyfikacja wag: Zwiększanie wag termów występujących w dokumentach wskazanych jako relewantne, zmniejszanie wag termów występujących w dokumentach wskazanych jako nierelewantne. –Dzięki temu nowe zapytanie będzie przesuwane w kierunku dokumentów relewantnych i odsuwane od nierelewantnych. –Często stosuje się wyłącznie sprzężenie pozytywne. Półautomatyczne – dodatkowe termy może wybierać z przygotowanych list użytkownik (rzadziej stosowane). Kilka algorytmów dla automatycznego sprzężenia relewancji.

7 Algorytm Rocchio Algorytm Rocchio włącza mechanizmy sprzężenia relewancji do standardowego modelu wektorowego. Załóżmy, że znany jest zbiór dokumentów relewantnych C r. –Chcemy maksymalizować sim (q, C r ) - sim (q, C nr ). –Optymalny wektor zapytania, rozdzielający dokumenty relewantne i nierelewantne, wyznaczany jest wówczas przez różnicę centroidów (uśrednionych wektorów wag) dukumentów relewantnych i nierelewantnych: –gdzie N jest rozmiarem kolekcji. Niestety nie znamy C r.

8 Algorytm Rocchio – Zapytanie optymalne x x x x o o o Optymalne zapytanie x – dokumenty nierelewanne o – dokumenty relewantne o o o x x x x x x x x x x x x x x

9 Algorytm Rocchio Ponieważ nie znamy wszystkich dokumentów, po prostu wykorzystujemy zbiór wektorów znanych dokumentów relewantnych (D r ) i nierelewantnych (D nr ) do modyfikacji wstępnego zapytania q 0. gdzie,, są wybieranymi ręcznie lub ustalanymi empirycznie parametrami (wagami) odpowiednio wstępnego zapytania, dokumentów relewantnych i nierelewantnych. Nowe zapytanie jest więc przesuwane w kierunku dokumentów relewantnych i odsuwane od nierelewantnych. Wymienność między oraz i, jeśli użytkownik oceni wiele dokumentów, lepsza jest wyższa wartość i. Wagi termów mogą stać się ujemne. W takich przypadkach są ignorowane (ustawiane na 0).

10 Algorytm Rocchio – Modyfikacja wstępnego zapytania x x x x o o o Zapytanie poprawione x znane dokumenty nierelewantne o znane dokumenty relewantne o o o x x x x x x x x x x x x x x Wstępne zapytanie

11 Algorytm Rocchio – Modyfikacja wstępnego zapytania Przykład –Wstępne zapytanie: (5, 0, 3, 0, 1) –Dokument D1, relewantny: (2, 1, 2, 0, 0) –Dokument D2, nierelewantny: (1, 0, 0, 0, 2) = 1, = 0.50, = 0.25 Q= Q D D2 = (5, 0, 3, 0, 1) (2, 1, 2, 0, 0) (1, 0, 0, 0, 2) = (5.75, 0.50, 4.00, 0.0, 0.5)

12 Algorytm Regularny Idea Polega ona na założeniu, zwiększenie wpływu sprzężenia zwrotnego spowoduje zwiększenie stopnia reformulacji zapytania, a więc nie normalizujemy wielkości sprzężenia –gdzie,, są jak w metodzie Rocchio – wagami (parametrami) odpowiednio wstępnego zapytania, dokumentów relewantnych i nierelewantnych.

13 Algorytm Dec Hi Idea Polega na wykorzystaniu tylko najwyżej ocenionego z dokumentów nierelewantnych. –gdzie,, są jak poprzednio – wagami (parametrami) odpowiednio wstępnego zapytania, dokumentów relewantnych i nierelewantnych. –Operację max nierelewantny rozumiemy w sensie wyboru wektora reprezentującego nierelewantny dokument o najwyższym rankingu.

14 Metody sprzężenia relewancji oparte na modelu wektorowym Ogólnie wyniki eksperymentalne wykazują podobne efekty działania powyższych metod sprzężenia relewancji opartych na modelu wektorowym. –Generalnie wskazuje się poprawę wyników wyszukiwania (zarówno kompletność i precyzję) przy zastosowaniu informacji zwrotnej o relewancji. Kilka uwag o parametrach: –Oryginalnie Rocchio używał wagi równej 1. –Sprzężenie pozytywne (dla dokumentów wskazanych jako relewantne) generalnie jest bardziej wartościowe niż negatywne, tak więc zazwyczaj przyjmuje się > (np. = 0.25, = 0.75). –Wiele systemów pozwala wyłącznie na sprzężenie pozytywne ( = 0). Generalnie dobrym pomysłem może być ustawienie wag na 1 (z ewentualnym usunięciem sprzężenia negatywnego).

15 Probabilistyczne sprzężenie relewancji Podstawowy problem dyskutowanego na poprzednim wykładzie probabilistycznego modelu wyszukiwania informacji (BIR) polegał na tym, że wymagał on wskazania zbioru dokumentów relewantnych i nierelewantnych, a więc dostarczenia informacji o relewancji. Możemy więc wykorzystać go do modelowania sprzężenia relewancji, wyliczając wagi termów, zgodnie z formułą Robertsona i Sparck Jones: gdzie N jest liczbą dokumentów w kolekcji, n – liczbą dokumentów zawierających dany term, S – liczbą dokumentów relewantnych wskazanych przez użytkownika, s – liczbą dokumentów zawierających dany term wśród wskazanych dokumentów relewantnych. Waga termu c i generalnie porównuje więc częstość występowania termu w dokumentach wskazanych jako relewantne do częstości jego występowania w całej kolekcji.

16 Probabilistyczne sprzężenie relewancji Probabilistyczne sprzężenie relewancji jest innym sposobem przeliczenia wag termów zapytania, zauważmy jednak, że nie podejście to nie uwzględnia oryginalnych wag. Dlatego często stosowane jest ono do klasycznej ekspansji zapytania, tzn. termy porządkowane są według wyliczonych wag i następnie: –do zapytania dodawane są termy których waga jest wyższa niż pewien założony próg, albo –do zapytania dodawana jest pewna z góry założona liczba termów o najwyższych wagach.

17 Sprzężenie relewancji – problemy Sprzężenie relewancji może produkować długie zapytania, co skutkuje dłuższymi czasami przetwarzania zapytania i wyższym kosztem systemu wyszukiwawczego. –Częściowym rozwiązaniem jest wspomniane na ostatnim slajdzie ograniczenie się do pewnego podzbioru najistotniejszych termów. Sprzężenie relewancji może być bardzo efektywne i poprawiać wyraźnie wyniki wyszukiwania. –Wymaga jednak dostatecznie dużej liczby dokumentów ocenionych przez użytkownika, w przeciwnym przypadku mechanizm ten jest niestabilny (rekomendowane jest co najmniej 5 dokumentów). –Wymaga zapytań dla których zbiór dokumentów relewantnych jest średni lub duży. Użytkownicy zazwyczaj niechętnie chcą udzielać tak wielu dodatkowych informacji. –Dlatego często wykorzystuje się tzw. sprzężenie pseudo relewancji lub pośrednie sprzężenie relewancji.

18 Sprzężenie pseudo relewancji Sprzężenie pseudo relewancji polega na pominięciu fazy pobierania informacji o relewancji od użytkownika. –Zakłada się po prostu, że m ocenionych najwyżej dokumentów w rankingu jest relewantnych i wykorzystuje się je do przeformułowania zapytania. –Badania wskazują na poprawę efektów wyszukiwania. –Pojawia się jednak niebezpieczeństwo tzw. dryfu zapytania. Jeśli wyniki wstępnego zapytania są niewłaściwe, sprzężenie pseudo relewancji tylko to pogłębia. –Sprzężenie pseudo relewancji może być traktowane jako jedna z metod analizy lokalnej, do których wrócimy jeszcze w dalszej części wykładu. Pośrednie sprzężenie relewancji polega na automatyzacji procesu pobierania informacji od użytkownika. –Jako relewantne przyjmuje się np. dokumenty, przeglądane przez użytkownika. –Jest to obszar zastosowań eksploracji ciągów kliknięć na łącza (clickstream mining). –Problemy: czy każdy przeglądany dokument jest relewantny? Wymagane są dobre streszczenia prezentowane użytkownikowi w rankingu.

19 Analiza globalna Rozszerzanie zapytania – dodawanie do niego dodatkowych termów (lub zmiana wag termów zapytania) –Sprzężenie relewancji – wykorzystanie informacji o relewancji dokumentów, dostarczonej przez użytkownika. –Analiza globalna – modyfikacja zapytania z wykorzystaniem tezaurusów, zawierających globalne zależności między termami, uzyskane na podstawie analizy językowej lub zawartości całej kolekcji. –Analiza lokalna – modyfikacja zapytania na podstawie lokalnych zależności między termami, związanymi z zapytaniem. Kolejną podstawową metodą rozszerzania zapytania jest analiza globalna, polegająca na wykorzystaniu informacji o powiązaniach między słowami kluczowymi, wynikających z ogólnych analiz językowych lub analizy całej bazy dokumentów.: –Wymusza to na użytkowniku kontrolę słownictwa. –W najprostszym przypadku może to polegać po prostu na umożliwieniu użytkownikowi przeglądania listy termów indeksu odwrotnego. –Zazwyczaj jednak korzysta się z tzw. tezaurusów.

20 Rozszerzanie zapytania

21 Tezaurusy Tezaurus jest słownikiem dostarczającym informacji o powiązaniach semantycznych między termami: –Tezaurus hierarchiczny – hierarchia powiązań typu term szerszy (ogólniejszy) – węższy (bardziej specyficzny). –Tezaurus skojarzeniowy (asocjacyjny) – płaska (a w zasadzie raczej amorficzna) struktura powiązań między synonimami i termami generalnie jakiś sposób związanymi miedzy sobą. Dla każdego termu występującego w zapytaniu wyszukuje się w tezaurusie i dodaje: –Synonimy i termy powiązane dla stworzenia szerszego kontekstu zapytania. –Słowa o węższym znaczeniu (hiponimy) dla specjalizacji zapytania. –Słowa o szerszym znaczeniu (hipernimy) dla uogólnienia zapytania. Dodawanie termów może mieć charakter: –Automatyczny – zapytanie rozszerzane jest bez dialogu z użytkownikiem. –Z asystą użytkownika – na podstawie tezaurusa tworzone są różnego rodzaju listy podpowiedzi, z których użytkownik wybiera termy dodawane do zapytania.

22 Rozszerzanie zapytania Generalnie zwiększa kompletność wyszukiwania. Sprawdza się przede wszystkim w wyszukiwaniu dziedzinowym zwłaszcza nauce i technice, w dziedzinach gdzie niezbędny jest pewien model wiedzy. Przy niejednoznacznych termach może powodować spadek precyzji wyszukiwania, poprzez dodawanie skorelowanych, ale niewłaściwych termów, np.: –Apple computer Apple red fruit computer

23 Tezaurusy ręczne Tezaurusy mogą być tworzone przez ludzi (ekspertów) definiujących powiązania między słowami: –Tezaurusy ogólnego przeznaczenia np. WordNet, tezaurus Regeta. –Tezaurusy dla konkretnej dziedziny (np. MedLine). Problemy: –Ręcznie tworzone tezaurusy mogą być trudno dostępne dla konkretnych języków czy dziedzin zastosowania. –Budowa i utrzymanie ręcznego tezaurusa może być dosyć czasochłonne i kosztowne. –Tezaurusy ręczne odzwierciedlają ogólną wiedzę na temat semantyki powiązań między pojęciami, niekoniecznie właściwą i dostosowaną do konkretnej bazy dokumentów. Dlatego za lepsze rozwiązanie przyjmuje się raczej wykorzystanie tezaurusów generowanych automatycznie na podstawie analizy zawartości konkretnej kolekcji dokumentów.

24 Tezaurusy skojarzeniowe Korelacja termów Przy generowaniu tezaurusów skojarzeniowych, zazwyczaj wykorzystuje się różnego rodzaju miary korelacji termów: gdzie i = 1,..., n, j = 1,..., n, n jest liczbą termów w słowniku, c ij jest miarą korelacji między termami t i i t j, tf ik jest częstością termu t i w dokumencie d k, D jest zbiorem wszystkich dokumentów w bazie danych Tak więc korelacja między termami wyznaczana jest na podstawie częstości ich współwystępowania w poszczególnych dokumentach kolekcji. –Mnożymy po prostu skalarnie wektory wierszy macierzy termów/ dokumentów, odpowiadające danym termom. Macierz c ij nazywamy macierzą asocjacji termów.

25 Tezaurusy skojarzeniowe Korelacja termów Macierz asocjacji termów może być normalizowana, tak by dla termów o takiej samej częstości we wszystkich dokumentach korelacja wynosiła 1: Normalizacja może polegać również na zastosowaniu cosinusoidalnej miary podobieństwa między wierszami termów w macierzy termów/dokumentów:

26 Tezaurusy skojarzeniowe Kwestie implementacyjne W praktyce oczywiście macierz asocjacji termów c ij, miałaby bardzo duże rozmiary, ponadto byłaby to macierz rzadka –Zazwyczaj więc przechowujemy wyłącznie elementy c ij > 0. –Elementy macierzy c ij, aktualizowane są dla każdego nowego dokumentu dodawanego do kolekcji. Dla każdej pary termów t i, t j współwystępujących w nowym dokumencie d k : Jeśli element c ij nie istnieje, dodajemy nowe c ij = df ik · df jk. Jeśli element c ij istnieje, modyfikujemy go c ij += df ik · df jk.

27 Tezaurusy skojarzeniowe Inne miary korelacji termów Często stosowanym wariantem jest wyznaczanie korelacji termów nie na podstawie częstości ich współwystępowania w całych dokumentach, ale w pewnym ruchomym oknie, złożonym z określonej liczby słów. Alternatywą jest zastąpienie częstości współwystępowania miarą odległości (w słowach) miedzy termami w dokumencie. gdzie –V i jest zbiorem wszystkich wystąpień termu t i, we wszystkich dokumentach, –r(k u,k v ) – jest odległością (w słowach) wystąpień słów k u i k v ( jeśli k u i k v są wystąpieniami w różnych dokumentach. Miara ta może być również normalizowana:

28 Tezaurusy skojarzeniowe Rozszerzanie zapytania Rozszerzanie zapytania może być realizowane zgodnie z powyższą prostą procedurą: dla każdego termu występującego w zapytaniu (q i Q): –W i-tym wierszu macierzy asocjacji termów c ij (odpowiadającym termowi q i ), znajdujemy k największych wyrazów. –Termy odpowiadające znalezionym k elementom c ij o najwyższej korelacji z termem q i, dodajemy do zapytania (lub proponujemy użytkownikowi w procedurze półautomatycznej). Alternatywą jest znalezienie i dodanie do zapytania k termów najbardziej skorelowanych z całym zapytaniem. –Korelację termu t j z zapytaniem Q, możemy wyznaczyć stosując prostą miarę asocjacji lub współczynnik cosinusów.

29 Tezaurusy skojarzeniowe Powiązania pośrednie Zauważmy, że macierz asocjacji termów tworzona jest w sposób lokalny, tzn. poprzez analizę współwystępowania termów w poszczególnych dokumentach. –Wiele powiązań między termami może nie zostać wykrytych. –Na przykład termy samochód i pojazd samochodowy mogą nie występować razem w opisie jednego dokumentu. Problem ten może zostać częściowo rozwiązany poprzez wykorzystanie asocjacji pośrednich: –Na przykład termy samochód i pojazd samochodowy mogą nie występować razem w opisie jednego dokumentu, ale w niektórych dokumentach mogą współwystępować termy samochód i motoryzacja, a w innych pojazd samochodowy i motoryzacja. Jednym ze sposobów wykorzystania asocjacji pośrednich jest zastosowanie do obliczania podobieństw termów do zapytania rekurencyjnej sieci neuronowej (konekcjonistycznej). –Sieci tego typu nazywane są również sieciami rozprzestrzeniania aktywacji.

30 Tezaurusy skojarzeniowe Rozprzestrzenianie aktywacji Sieć rozprzestrzeniania aktywacji (spreading activation network) jest w pełni połączoną rekurencyjną siecią typu Hopfielda. –Każdy term traktowany jest jako węzeł sieci (neuron). –Podczas uczenia sieci wagi połączeń między węzłami wyznaczane są poprzez obliczenie współczynnika korelacji c ij między odpowiednimi termami reprezentowanymi przez te węzły. –Analizowane wcześniej miary korelacji oparte na współwystępowaniu termów (np. cosinusoidalna) mają charakter symetryczny, tzn. c ij = c ji. –Wagi sprzężeń zwrotnych (dla tego samego termu) ustawiane są na wartość 0 (c ii = 0). Tak zdefiniowana macierz asocjacji termów (wag sieci neuronowej) spełnia warunki zbieżności sieci rekurencyjnej, może więc posłużyć jako macierz wag połączeń sieci Hopfielda.

31 Tezaurusy skojarzeniowe Rozprzestrzenianie aktywacji Rozszerzanie zapytania oparte na rozprzestrzenianiu aktywacji realizowane jest w procesie relaksacji sieci Hopfielda. –W sieci Hopfielda wejście sieci definiowane jest przez stan początkowy wszystkich neuronów. W naszym przypadku określany jest on poprzez wektor wag termów zapytania, tak więc x i (0) = q i. –W każdym kroku relaksacji sieci obliczamy x i (t+1) = j c ij ·x j (t). –Proces relaksacji (poprzedni krok) powtarzany jest aż do osiągnięcia przez sieć stanu stabilnego. Wartości neuronów x i po zakończeniu relaksacji określają podobieństwo poszczególnych termów do zapytania. –Zauważmy, że w każdym kroku stany neuronów obliczane są jako ich podobieństwa do zestawu termów występujących w kroku poprzednim. –Jeśli więc termy samochód i motoryzacja były silnie skorelowane i w zapytaniu występował pierwszy z nich, neuron odpowiadający termowi motoryzacja również zostanie pobudzony. –Jeśli teraz z termem motoryzacja będzie skorelowany term pojazd samochodowy, to w kolejnym kroku zostanie on pobudzony, nawet jeśli nie był on skorelowany bezpośrednio z termem samochód.

32 Tezaurusy skojarzeniowe Rozprzestrzenianie aktywacji Sieci Hopfielda powyższego typu nazywane są często sieciami rozprzestrzeniania aktywacji. –Ich zadaniem jest obliczanie pobudzenia definiowanego przez pewien wzorzec wejściowy, z wykorzystaniem pośrednich asocjacji między węzłami sieci. Niektóre badania empiryczne wskazują, że niekontrolowany proces rozprzestrzeniania aktywacji prowadzi do pobudzenia termów słabo związanych z zapytaniem. –Sugeruje się więc przerwanie procesu relaksacji sieci po 2 – 3 iteracjach, zamiast po osiągnięciu stanu stabilnego. Podobne założenia legły u podstaw innej metody rozszerzania zapytania, wykorzystującej pośrednie asocjacje między termami, tzw. metody skupień skalarnych –Zakłada ona z definicji wykorzystanie jednokrokowych asocjacji pośrednich.

33 Tezaurusy skojarzeniowe Skupienia skalarne Idea wyznaczania współczynnika asocjacji termów opartego na skupieniach skalarnych polega na koncepcji, że skorelowane termy powinny mieć zbliżone sąsiedztwa (zbiory synonimów). Macierz asocjacji skalarnej s ij obliczana jest jako podobieństwo wektorów korelacji termów t i, t j z innymi termami. Mówimy, że macierz s ij jest indukowana przez sąsiedztwo termów. Jak widzimy wykorzystuje ona informację nie tylko o termach skorelowanych bezpośrednio, ale także tych, które skorelowane są z nimi. Procedura postępowania jest dalej taka sama jak w poprzednich przypadkach. Zapytanie rozszerzane jest o termy najbardziej związane z każdym termem zapytania z osobna, lub z zapytaniem w całości.

34 Tezaurusy hierarchiczne Tezaurus hierarchiczny stanowi odzwierciedlenie hierarchii pojęć, i zazwyczaj generowany jest przy zachowaniu następujących warunków: –Termy w hierarchii jak najlepiej powinny odzwierciedlać tematy dokumentów w kolekcji. –Hierarchia powinna być tak zorganizowana, aby term rodzicielski odzwierciedlał pojęcie powiązane, ale generalnie bardziej ogólne niż pojęcia odpowiadające termom potomnym. –Termy potomne mogą mieć więcej niż jednego rodzica, tak więc struktura ta mimo że określana jest jako hierarchia, w zasadzie tworzy skierowany graf acykliczny. –Termy wieloznaczne mogą występować w hierarchii wielokrotnie, oddzielnie dla każdego ich znaczenia w dokumentach. Nie zawsze (ale zazwyczaj tak) możemy założyć przechodni charakter związku między rodzicem i potomkiem, co wynika ze scalenia w jednej hierarchii wielu różnych typów związków między pojęciami ogólniejszymi i bardziej specyficznymi. –Na przykład kapitan statku jest zawodem, Kapitan Ahab jest kapitanem statku. Ale Kapitan Ahab nie jest zawodem.

35 Tezaurusy hierarchiczne Zazwyczaj algorytmy generowania tezaurusa hierarchicznego na podstawie kolekcji dokumentów realizowane są w dwu krokach: –Strukturalizacja zbioru termów na poziomy o coraz mniejszej ogólności. –Znalezienie związków miedzy termami na różnych poziomach i ustanowienie relacji rodzic – potomek. ogólności. Jeśli korelacja jest dostatecznie wysoka tworzy się powiązanie. Istnieje szereg podejść do strukturalizacji zbioru termów kolekcji. Najważniejsze z niech podzielić możemy na: –Podejścia oparte na wykorzystaniu częstości dokumentu dla danego termu (df) – liczby dokumentów zawierających dany term. –Podejścia oparte na grupowaniu (analizie skupień) hierarchicznym (hierarchical clustering). Podejścia z pierwszej grupy opierają się na następujących założeniach: –Termy o wyższej częstości df (występujące w większej liczbie dokumentów) mają szersze znaczenie, termy o niższej mają znaczenie węższe. –Jeśli więc term x ma wyższe df niż y, to x jest kandydatem na rodzica y.

36 Tezaurusy hierarchiczne Algorytm Forsytha i Rady Algorytm Forsytha i Rady jest klasycznym algorytmem generowania tezaurusa hierarchicznego z wykorzystaniem częstości df i miar korelacji termów. –Dzielimy przedział częstości wszystkich df na podprzedziały (tyle ile chcemy mieć poziomów w hierarchii). Przedział o najwyższej częstości oznaczamy przez 0, następny przez 1, itd. –Grupujemy termy słownika podstawie ich df do poszczególnych przedziałów częstości. Każdemu przedziałowi odpowiada jedna klasa. –Dla każdego termu t na poziomie i, obliczamy podobieństwo t do wszystkich termów na poziomie wyższym i-1. Jako miarę podobieństwa możemy przyjąć cosinus lub inną miarę korelacji (asocjacji) termów opisaną wcześniej. –Term t staje się potomkiem termu o najwyższym podobieństwie. Jeśli kilka termów na poziomie i-1 spełnia ten warunek, t staje się potomkiem każdego z nich. –Po powiązaniu wszystkich termów na poziomie i, sprawdzamy termy poziomu i-1, znajdując te które nie posiadają potomków. Tworzymy dla każdego z nich identycznego sztucznego potomka na poziomie i.

37 Tezaurusy hierarchiczne Algorytm Sandersona Algorytm Sandersona wykorzystuje miarę tzw. subsumpcji (pociągania za sobą) termów. –Term x pociąga za sobą term y, jeśli zbiór dokumentów w których występuje y jest podzbiorem zbioru dokumentów w których występuje x. –Jeśli więc x ma wyższą częstość oraz pociąga za sobą y, jest kandydatem na rodzica y. Ponieważ relacja subsumpcji, ma charakter skierowany nie wymaga wcześniejszego podziału słownictwa na klasy odpowiadające przedziałom częstości df. –Dla każdej pary termów x i y, takiej że df(x) >= df(y), określany jest zbiór dokumentów, które je zawierają. Przyjmujemy, że x pociąga za sobą y, jeśli: P(x|y) = P(x,y)/P(y) >= 0.8 oraz P(y|x) < P(x|y) –Zależności między termami są porządkowane. Odrzucane są zależności przechodnie. Jeśli a pociąga b i b pociąga c, to zależność a pociąga c może zostać odrzucona.

38 Analiza lokalna Analiza lokalna polega na rozszerzaniu zapytania z wykorzystaniem miar asocjacji między termami, wygenerowanymi na podstawie dokumentów z górnej części rankingu dokumentów wyszukanych dla tego zapytania. –Schemat postępowania jest więc zbliżony jak w przypadku sprzężenia pseudo relewancji. –Generalnie sprzężenie pseudo relewancji może być traktowane jako metoda analizy lokalnej. –Metody te mogą również wykorzystywać do rozszerzenia zapytania korelacje między termami dokumentów najbardziej dopasowanych do zapytania przy użyciu metod analogicznych do analizy globalnej.


Pobierz ppt "Wprowadzenie do budowy usług informacyjnych W. Bartkiewicz Wykład 5. Reformulacja zapytań Sprzężenie relewancji Uwaga: W bieżącej prezentacji obszernie."

Podobne prezentacje


Reklamy Google