Wprowadzenie do budowy usług informacyjnych Uniwersytet Łódzki Katedra Informatyki W. Bartkiewicz Wprowadzenie do budowy usług informacyjnych Wykład 5. Reformulacja zapytań Sprzężenie relewancji Uwaga: W bieżącej prezentacji obszernie wykorzystano slajdy z wykładu „Information Retrieval and Web Search”, prowadzonego na Stanford University przez Christophera Manninga i Prabhakara Raghavana.
Niejednoznaczność zapytań Katedra Informatyki Opisy dokumentów oraz termy indeksujące stanowią określenia pochodzące z języka naturalnego. Problem – nieprecyzja języka naturalnego. Ponieważ systemy wyszukiwawcze specyfikowane są na poziomie leksykalnym, a nie pojęciowym, pojawia się problem dopasowania tych samych (lub powiązanych) pojęć wyspecyfikowanych w zapytaniu i w opisie dokumentu z wykorzystaniem nieprecyzyjnych (np. różnych) słów. Podstawowe typy relacji leksykalnych: Homonimy (polisemia) – wiele znaczeń tego samego słowa. Synonimy (wyrazy bliskoznaczne) – różne sposoby wyrażenia tych samych (blisko powiązanych) pojęć. Metonimy – użycie aspektu pojęcia w znaczeniu całości (np. pałac prezydencki ogłosił ..., do laski marszałkowskiej zgłoszono projekt ...). Hiponimy (hipernimy) – słowa opisujące pojęcia ogólniejsze i bardziej szczegółowe. Meronimy – słowa opisujące pojęcia powiązane relacją całość – element. Antonimy – słowa przeciwstawne.
Reformulacja zapytań Katedra Informatyki Ludzie rozwiązują problemy nieprecyzji leksykalnej z wykorzystaniem kontekstu. Modelowanie kontekstu nie jest łatwe. Problem – zapytania użytkowników są często krótkie, złożone z jednego, dwu termów – brak kontekstu. Dostarczanie kontekstu z wykorzystaniem reformulacji zapytań Rozszerzanie zapytania – dodawanie do niego dodatkowych termów (lub zmiana wag termów zapytania) Sprzężenie relewancji – wykorzystanie informacji o relewancji dokumentów, dostarczonej przez użytkownika. Analiza globalna – modyfikacja zapytania z wykorzystaniem tezaurusów, zawierających globalne zależności między termami, uzyskane na podstawie analizy językowej lub zawartości całej kolekcji. Analiza lokalna – modyfikacja zapytania na podstawie lokalnych zależności między termami, związanymi z zapytaniem. Przekształcenie zapytania z przestrzeni słów do przestrzeni pojęć: Algebraiczne metody nienadzorowane, np. LSI (Latent Semantic Indexing) Metody formowania pojęć, oparte na klasyfikacji i grupowaniu termów.
Sprzężenie relewancji Katedra Informatyki Sprzężenie relewancji: Użytkownik dostarcza informacji o relewancji dokumentów we wstępnym zbiorze wynikowym: Użytkownik zadaje (krótkie, proste) zapytanie. System znajduje zbiór dokumentów będący wynikiem zapytania. Użytkownik w zbiorze wynikowy wskazuje kilka dokumentów relewantnych i (czasami) nierelewantnych. Na podstawie informacji o relewancji oraz wstępnego zapytania, system oblicza lepszą reprezentację potrzeby informacyjnej użytkownika. Na podstawie zmodyfikowanego zapytania określany jest nowy zbiór wynikowy. Procedura ta może być powtarzana kilkukrotnie, w iteracyjnym procesie dochodzenia do jak najlepszego wyniku. Pomysł: Trudno sformułować dobre zapytanie nie mając szczegółowej wiedzy o kolekcji dokumentów, tak więc dochodzimy do niego w procesie iteracyjnym.
Architektura sprzężenia relewancji Katedra Informatyki Kolekcja dokumentów Zapytanie Reformulacja zapytania Nowe zapytanie System IR Rankings Nowy ranking 1. Doc2 2. Doc4 3. Doc5 . Ranking dokumentów 1. Doc1 2. Doc2 3. Doc3 . 1. Doc1 2. Doc2 3. Doc3 . Sprzężenie
Reformulacja zapytania Katedra Informatyki Automatyczna modyfikacja zapytania: Ekspansja zapytania: Dodawanie nowych termów wybranych z dokumentów wskazanych jako relewantne. Modyfikacja wag: Zwiększanie wag termów występujących w dokumentach wskazanych jako relewantne, zmniejszanie wag termów występujących w dokumentach wskazanych jako nierelewantne. Dzięki temu nowe zapytanie będzie przesuwane w kierunku dokumentów relewantnych i odsuwane od nierelewantnych. Często stosuje się wyłącznie sprzężenie pozytywne. Półautomatyczne – dodatkowe termy może wybierać z przygotowanych list użytkownik (rzadziej stosowane). Kilka algorytmów dla automatycznego sprzężenia relewancji.
Algorytm Rocchio Katedra Informatyki Algorytm Rocchio włącza mechanizmy sprzężenia relewancji do standardowego modelu wektorowego. Załóżmy, że znany jest zbiór dokumentów relewantnych Cr. Chcemy maksymalizować sim (q, Cr) - sim (q, Cnr). Optymalny wektor zapytania, rozdzielający dokumenty relewantne i nierelewantne, wyznaczany jest wówczas przez różnicę centroidów (uśrednionych wektorów wag) dukumentów relewantnych i nierelewantnych: gdzie N jest rozmiarem kolekcji. Niestety nie znamy Cr.
Algorytm Rocchio – Zapytanie optymalne Katedra Informatyki Algorytm Rocchio – Zapytanie optymalne x x x x o x x x x x x x x o x o x o x x o o x x x – dokumenty nierelewanne o – dokumenty relewantne Optymalne zapytanie
Algorytm Rocchio Katedra Informatyki Ponieważ nie znamy wszystkich dokumentów, po prostu wykorzystujemy zbiór wektorów znanych dokumentów relewantnych (Dr) i nierelewantnych (Dnr) do modyfikacji wstępnego zapytania q0. gdzie a, b, g są wybieranymi ręcznie lub ustalanymi empirycznie parametrami (wagami) odpowiednio wstępnego zapytania, dokumentów relewantnych i nierelewantnych. Nowe zapytanie jest więc przesuwane w kierunku dokumentów relewantnych i odsuwane od nierelewantnych. Wymienność między a oraz b i g , jeśli użytkownik oceni wiele dokumentów, lepsza jest wyższa wartość b i g . Wagi termów mogą stać się ujemne. W takich przypadkach są ignorowane (ustawiane na 0).
Algorytm Rocchio – Modyfikacja wstępnego zapytania Katedra Informatyki Wstępne zapytanie x x x o x x x x x x x o x o x x o x o o x x x x x znane dokumenty nierelewantne o znane dokumenty relewantne Zapytanie poprawione
Algorytm Rocchio – Modyfikacja wstępnego zapytania Katedra Informatyki Przykład Wstępne zapytanie: (5, 0, 3, 0, 1) Dokument D1, relewantny: (2, 1, 2, 0, 0) Dokument D2, nierelewantny: (1, 0, 0, 0, 2) a = 1, b = 0.50, g = 0.25 Q’= Q + 0.5 D1 - 0.25 D2 = (5, 0, 3, 0, 1) + 0.5 (2, 1, 2, 0, 0) - 0.25 (1, 0, 0, 0, 2) = (5.75, 0.50, 4.00, 0.0, 0.5)
Algorytm „Regularny” Ide’a Katedra Informatyki Polega ona na założeniu, zwiększenie wpływu sprzężenia zwrotnego spowoduje zwiększenie stopnia reformulacji zapytania, a więc nie normalizujemy wielkości sprzężenia gdzie a, b, g są jak w metodzie Rocchio – wagami (parametrami) odpowiednio wstępnego zapytania, dokumentów relewantnych i nierelewantnych.
Algorytm „Dec Hi” Ide’a Katedra Informatyki Polega na wykorzystaniu tylko najwyżej ocenionego z dokumentów nierelewantnych. gdzie a, b, g są jak poprzednio – wagami (parametrami) odpowiednio wstępnego zapytania, dokumentów relewantnych i nierelewantnych. Operację maxnierelewantny rozumiemy w sensie wyboru wektora reprezentującego nierelewantny dokument o najwyższym rankingu.
Metody sprzężenia relewancji oparte na modelu wektorowym Katedra Informatyki Ogólnie wyniki eksperymentalne wykazują podobne efekty działania powyższych metod sprzężenia relewancji opartych na modelu wektorowym. Generalnie wskazuje się poprawę wyników wyszukiwania (zarówno kompletność i precyzję) przy zastosowaniu informacji zwrotnej o relewancji. Kilka uwag o parametrach: Oryginalnie Rocchio używał wagi a równej 1. Sprzężenie pozytywne (dla dokumentów wskazanych jako relewantne) generalnie jest bardziej wartościowe niż negatywne, tak więc zazwyczaj przyjmuje się b > g (np. g = 0.25, b = 0.75). Wiele systemów pozwala wyłącznie na sprzężenie pozytywne (g = 0). Generalnie dobrym pomysłem może być ustawienie wag na 1 (z ewentualnym usunięciem sprzężenia negatywnego).
Probabilistyczne sprzężenie relewancji Katedra Informatyki Podstawowy problem dyskutowanego na poprzednim wykładzie probabilistycznego modelu wyszukiwania informacji (BIR) polegał na tym, że wymagał on wskazania zbioru dokumentów relewantnych i nierelewantnych, a więc dostarczenia informacji o relewancji. Możemy więc wykorzystać go do modelowania sprzężenia relewancji, wyliczając wagi termów, zgodnie z formułą Robertsona i Sparck Jones: gdzie N jest liczbą dokumentów w kolekcji, n – liczbą dokumentów zawierających dany term, S – liczbą dokumentów relewantnych wskazanych przez użytkownika, s – liczbą dokumentów zawierających dany term wśród wskazanych dokumentów relewantnych. Waga termu ci generalnie porównuje więc częstość występowania termu w dokumentach wskazanych jako relewantne do częstości jego występowania w całej kolekcji.
Probabilistyczne sprzężenie relewancji Katedra Informatyki Probabilistyczne sprzężenie relewancji jest innym sposobem przeliczenia wag termów zapytania, zauważmy jednak, że nie podejście to nie uwzględnia oryginalnych wag. Dlatego często stosowane jest ono do klasycznej ekspansji zapytania, tzn. termy porządkowane są według wyliczonych wag i następnie: do zapytania dodawane są termy których waga jest wyższa niż pewien założony próg, albo do zapytania dodawana jest pewna z góry założona liczba termów o najwyższych wagach.
Sprzężenie relewancji – problemy Katedra Informatyki Sprzężenie relewancji może produkować długie zapytania, co skutkuje dłuższymi czasami przetwarzania zapytania i wyższym kosztem systemu wyszukiwawczego. Częściowym rozwiązaniem jest wspomniane na ostatnim slajdzie ograniczenie się do pewnego podzbioru najistotniejszych termów. Sprzężenie relewancji może być bardzo efektywne i poprawiać wyraźnie wyniki wyszukiwania. Wymaga jednak dostatecznie dużej liczby dokumentów ocenionych przez użytkownika, w przeciwnym przypadku mechanizm ten jest niestabilny (rekomendowane jest co najmniej 5 dokumentów). Wymaga zapytań dla których zbiór dokumentów relewantnych jest średni lub duży. Użytkownicy zazwyczaj niechętnie chcą udzielać tak wielu dodatkowych informacji. Dlatego często wykorzystuje się tzw. sprzężenie pseudo relewancji lub pośrednie sprzężenie relewancji.
Sprzężenie pseudo relewancji Katedra Informatyki Sprzężenie pseudo relewancji polega na pominięciu fazy pobierania informacji o relewancji od użytkownika. Zakłada się po prostu, że m ocenionych najwyżej dokumentów w rankingu jest relewantnych i wykorzystuje się je do przeformułowania zapytania. Badania wskazują na poprawę efektów wyszukiwania. Pojawia się jednak niebezpieczeństwo tzw. dryfu zapytania. Jeśli wyniki wstępnego zapytania są niewłaściwe, sprzężenie pseudo relewancji tylko to pogłębia. Sprzężenie pseudo relewancji może być traktowane jako jedna z metod analizy lokalnej, do których wrócimy jeszcze w dalszej części wykładu. Pośrednie sprzężenie relewancji polega na automatyzacji procesu pobierania informacji od użytkownika. Jako relewantne przyjmuje się np. dokumenty, przeglądane przez użytkownika. Jest to obszar zastosowań eksploracji ciągów kliknięć na łącza (clickstream mining). Problemy: czy każdy przeglądany dokument jest relewantny? Wymagane są dobre streszczenia prezentowane użytkownikowi w rankingu.
Analiza globalna Katedra Informatyki Rozszerzanie zapytania – dodawanie do niego dodatkowych termów (lub zmiana wag termów zapytania) Sprzężenie relewancji – wykorzystanie informacji o relewancji dokumentów, dostarczonej przez użytkownika. Analiza globalna – modyfikacja zapytania z wykorzystaniem tezaurusów, zawierających globalne zależności między termami, uzyskane na podstawie analizy językowej lub zawartości całej kolekcji. Analiza lokalna – modyfikacja zapytania na podstawie lokalnych zależności między termami, związanymi z zapytaniem. Kolejną podstawową metodą rozszerzania zapytania jest analiza globalna, polegająca na wykorzystaniu informacji o powiązaniach między słowami kluczowymi, wynikających z ogólnych analiz językowych lub analizy całej bazy dokumentów.: Wymusza to na użytkowniku kontrolę słownictwa. W najprostszym przypadku może to polegać po prostu na umożliwieniu użytkownikowi przeglądania listy termów indeksu odwrotnego. Zazwyczaj jednak korzysta się z tzw. tezaurusów.
Rozszerzanie zapytania Katedra Informatyki
Tezaurusy Katedra Informatyki Tezaurus jest słownikiem dostarczającym informacji o powiązaniach semantycznych między termami: Tezaurus hierarchiczny – hierarchia powiązań typu term szerszy (ogólniejszy) – węższy (bardziej specyficzny). Tezaurus skojarzeniowy (asocjacyjny) – płaska (a w zasadzie raczej amorficzna) struktura powiązań między synonimami i termami generalnie jakiś sposób związanymi miedzy sobą. Dla każdego termu występującego w zapytaniu wyszukuje się w tezaurusie i dodaje: Synonimy i termy powiązane dla stworzenia szerszego kontekstu zapytania. Słowa o węższym znaczeniu (hiponimy) dla specjalizacji zapytania. Słowa o szerszym znaczeniu (hipernimy) dla uogólnienia zapytania. Dodawanie termów może mieć charakter: Automatyczny – zapytanie rozszerzane jest bez dialogu z użytkownikiem. Z asystą użytkownika – na podstawie tezaurusa tworzone są różnego rodzaju listy podpowiedzi, z których użytkownik wybiera termy dodawane do zapytania.
Rozszerzanie zapytania Katedra Informatyki Generalnie zwiększa kompletność wyszukiwania. Sprawdza się przede wszystkim w wyszukiwaniu dziedzinowym zwłaszcza nauce i technice, w dziedzinach gdzie niezbędny jest pewien model wiedzy. Przy niejednoznacznych termach może powodować spadek precyzji wyszukiwania, poprzez dodawanie skorelowanych, ale niewłaściwych termów, np.: “Apple computer” “Apple red fruit computer”
Tezaurusy ręczne Katedra Informatyki Tezaurusy mogą być tworzone przez ludzi (ekspertów) definiujących powiązania między słowami: Tezaurusy ogólnego przeznaczenia np. WordNet, tezaurus Reget’a. Tezaurusy dla konkretnej dziedziny (np. MedLine). Problemy: Ręcznie tworzone tezaurusy mogą być trudno dostępne dla konkretnych języków czy dziedzin zastosowania. Budowa i utrzymanie ręcznego tezaurusa może być dosyć czasochłonne i kosztowne. Tezaurusy ręczne odzwierciedlają ogólną wiedzę na temat semantyki powiązań między pojęciami, niekoniecznie właściwą i dostosowaną do konkretnej bazy dokumentów. Dlatego za lepsze rozwiązanie przyjmuje się raczej wykorzystanie tezaurusów generowanych automatycznie na podstawie analizy zawartości konkretnej kolekcji dokumentów.
Tezaurusy skojarzeniowe Korelacja termów Katedra Informatyki Przy generowaniu tezaurusów skojarzeniowych, zazwyczaj wykorzystuje się różnego rodzaju miary korelacji termów: gdzie i = 1, ..., n, j = 1, ..., n, n jest liczbą termów w słowniku, cij jest miarą korelacji między termami ti i tj, tfik jest częstością termu ti w dokumencie dk, D jest zbiorem wszystkich dokumentów w bazie danych Tak więc korelacja między termami wyznaczana jest na podstawie częstości ich współwystępowania w poszczególnych dokumentach kolekcji. Mnożymy po prostu skalarnie wektory wierszy macierzy termów/ dokumentów, odpowiadające danym termom. Macierz cij nazywamy macierzą asocjacji termów.
Tezaurusy skojarzeniowe Korelacja termów Katedra Informatyki Macierz asocjacji termów może być normalizowana, tak by dla termów o takiej samej częstości we wszystkich dokumentach korelacja wynosiła 1: Normalizacja może polegać również na zastosowaniu cosinusoidalnej miary podobieństwa między wierszami termów w macierzy termów/dokumentów:
Tezaurusy skojarzeniowe Kwestie implementacyjne Katedra Informatyki W praktyce oczywiście macierz asocjacji termów cij, miałaby bardzo duże rozmiary, ponadto byłaby to macierz rzadka Zazwyczaj więc przechowujemy wyłącznie elementy cij > 0. Elementy macierzy cij, aktualizowane są dla każdego nowego dokumentu dodawanego do kolekcji. Dla każdej pary termów ti, tj współwystępujących w nowym dokumencie dk: Jeśli element cij nie istnieje, dodajemy nowe cij = dfik · dfjk. Jeśli element cij istnieje, modyfikujemy go cij += dfik · dfjk.
Tezaurusy skojarzeniowe Inne miary korelacji termów Katedra Informatyki Często stosowanym wariantem jest wyznaczanie korelacji termów nie na podstawie częstości ich współwystępowania w całych dokumentach, ale w pewnym ruchomym oknie, złożonym z określonej liczby słów. Alternatywą jest zastąpienie częstości współwystępowania miarą odległości (w słowach) miedzy termami w dokumencie. gdzie Vi jest zbiorem wszystkich wystąpień termu ti, we wszystkich dokumentach, r(ku,kv) – jest odległością (w słowach) wystąpień słów ku i kv ( jeśli ku i kv są wystąpieniami w różnych dokumentach. Miara ta może być również normalizowana:
Tezaurusy skojarzeniowe Rozszerzanie zapytania Katedra Informatyki Rozszerzanie zapytania może być realizowane zgodnie z powyższą prostą procedurą: dla każdego termu występującego w zapytaniu (qi Q): W i-tym wierszu macierzy asocjacji termów cij (odpowiadającym termowi qi), znajdujemy k największych wyrazów. Termy odpowiadające znalezionym k elementom cij o najwyższej korelacji z termem qi, dodajemy do zapytania (lub proponujemy użytkownikowi w procedurze półautomatycznej). Alternatywą jest znalezienie i dodanie do zapytania k termów najbardziej skorelowanych z całym zapytaniem. Korelację termu tj z zapytaniem Q, możemy wyznaczyć stosując prostą miarę asocjacji lub współczynnik cosinusów.
Tezaurusy skojarzeniowe Powiązania pośrednie Katedra Informatyki Zauważmy, że macierz asocjacji termów tworzona jest w sposób lokalny, tzn. poprzez analizę współwystępowania termów w poszczególnych dokumentach. Wiele powiązań między termami może nie zostać wykrytych. Na przykład termy „samochód” i „pojazd samochodowy” mogą nie występować razem w opisie jednego dokumentu. Problem ten może zostać częściowo rozwiązany poprzez wykorzystanie asocjacji pośrednich: Na przykład termy „samochód” i „pojazd samochodowy” mogą nie występować razem w opisie jednego dokumentu, ale w niektórych dokumentach mogą współwystępować termy „samochód” i „motoryzacja”, a w innych „pojazd samochodowy” i „motoryzacja”. Jednym ze sposobów wykorzystania asocjacji pośrednich jest zastosowanie do obliczania podobieństw termów do zapytania rekurencyjnej sieci neuronowej (konekcjonistycznej). Sieci tego typu nazywane są również sieciami rozprzestrzeniania aktywacji.
Tezaurusy skojarzeniowe Rozprzestrzenianie aktywacji Katedra Informatyki Sieć rozprzestrzeniania aktywacji (spreading activation network) jest w pełni połączoną rekurencyjną siecią typu Hopfielda. Każdy term traktowany jest jako węzeł sieci (neuron). Podczas uczenia sieci wagi połączeń między węzłami wyznaczane są poprzez obliczenie współczynnika korelacji cij między odpowiednimi termami reprezentowanymi przez te węzły. Analizowane wcześniej miary korelacji oparte na współwystępowaniu termów (np. cosinusoidalna) mają charakter symetryczny, tzn. cij = cji. Wagi sprzężeń zwrotnych (dla tego samego termu) ustawiane są na wartość 0 (cii = 0). Tak zdefiniowana macierz asocjacji termów (wag sieci neuronowej) spełnia warunki zbieżności sieci rekurencyjnej, może więc posłużyć jako macierz wag połączeń sieci Hopfielda.
Tezaurusy skojarzeniowe Rozprzestrzenianie aktywacji Katedra Informatyki Rozszerzanie zapytania oparte na rozprzestrzenianiu aktywacji realizowane jest w procesie relaksacji sieci Hopfielda. W sieci Hopfielda wejście sieci definiowane jest przez stan początkowy wszystkich neuronów. W naszym przypadku określany jest on poprzez wektor wag termów zapytania, tak więc xi(0) = qi. W każdym kroku relaksacji sieci obliczamy xi(t+1) = j cij·xj(t). Proces relaksacji (poprzedni krok) powtarzany jest aż do osiągnięcia przez sieć stanu stabilnego. Wartości neuronów xi po zakończeniu relaksacji określają podobieństwo poszczególnych termów do zapytania. Zauważmy, że w każdym kroku stany neuronów obliczane są jako ich podobieństwa do zestawu termów występujących w kroku poprzednim. Jeśli więc termy „samochód” i „motoryzacja” były silnie skorelowane i w zapytaniu występował pierwszy z nich, neuron odpowiadający termowi „motoryzacja” również zostanie pobudzony. Jeśli teraz z termem „motoryzacja” będzie skorelowany term „pojazd samochodowy”, to w kolejnym kroku zostanie on pobudzony, nawet jeśli nie był on skorelowany bezpośrednio z termem „samochód”.
Tezaurusy skojarzeniowe Rozprzestrzenianie aktywacji Katedra Informatyki Sieci Hopfielda powyższego typu nazywane są często sieciami rozprzestrzeniania aktywacji. Ich zadaniem jest obliczanie pobudzenia definiowanego przez pewien wzorzec wejściowy, z wykorzystaniem pośrednich asocjacji między węzłami sieci. Niektóre badania empiryczne wskazują, że niekontrolowany proces rozprzestrzeniania aktywacji prowadzi do pobudzenia termów słabo związanych z zapytaniem. Sugeruje się więc przerwanie procesu relaksacji sieci po 2 – 3 iteracjach, zamiast po osiągnięciu stanu stabilnego. Podobne założenia legły u podstaw innej metody rozszerzania zapytania, wykorzystującej pośrednie asocjacje między termami, tzw. metody skupień skalarnych Zakłada ona z definicji wykorzystanie jednokrokowych asocjacji pośrednich.
Tezaurusy skojarzeniowe Skupienia skalarne Katedra Informatyki Idea wyznaczania współczynnika asocjacji termów opartego na skupieniach skalarnych polega na koncepcji, że skorelowane termy powinny mieć zbliżone sąsiedztwa (zbiory synonimów). Macierz asocjacji skalarnej sij obliczana jest jako podobieństwo wektorów korelacji termów ti, tj z innymi termami. Mówimy, że macierz sij jest indukowana przez sąsiedztwo termów. Jak widzimy wykorzystuje ona informację nie tylko o termach skorelowanych bezpośrednio, ale także tych, które skorelowane są z nimi. Procedura postępowania jest dalej taka sama jak w poprzednich przypadkach. Zapytanie rozszerzane jest o termy najbardziej związane z każdym termem zapytania z osobna, lub z zapytaniem w całości.
Tezaurusy hierarchiczne Katedra Informatyki Tezaurus hierarchiczny stanowi odzwierciedlenie hierarchii pojęć, i zazwyczaj generowany jest przy zachowaniu następujących warunków: Termy w hierarchii jak najlepiej powinny odzwierciedlać tematy dokumentów w kolekcji. Hierarchia powinna być tak zorganizowana, aby term rodzicielski odzwierciedlał pojęcie powiązane, ale generalnie bardziej ogólne niż pojęcia odpowiadające termom potomnym. Termy potomne mogą mieć więcej niż jednego rodzica, tak więc struktura ta mimo że określana jest jako hierarchia, w zasadzie tworzy skierowany graf acykliczny. Termy wieloznaczne mogą występować w hierarchii wielokrotnie, oddzielnie dla każdego ich znaczenia w dokumentach. Nie zawsze (ale zazwyczaj tak) możemy założyć przechodni charakter związku między rodzicem i potomkiem, co wynika ze scalenia w jednej hierarchii wielu różnych typów związków między pojęciami ogólniejszymi i bardziej specyficznymi. Na przykład „kapitan statku” jest „zawodem”, „Kapitan Ahab” jest „kapitanem statku”. Ale „Kapitan Ahab” nie jest „zawodem”.
Tezaurusy hierarchiczne Katedra Informatyki Zazwyczaj algorytmy generowania tezaurusa hierarchicznego na podstawie kolekcji dokumentów realizowane są w dwu krokach: Strukturalizacja zbioru termów na poziomy o coraz mniejszej ogólności. Znalezienie związków miedzy termami na różnych poziomach i ustanowienie relacji rodzic – potomek. ogólności. Jeśli korelacja jest dostatecznie wysoka tworzy się powiązanie. Istnieje szereg podejść do strukturalizacji zbioru termów kolekcji. Najważniejsze z niech podzielić możemy na: Podejścia oparte na wykorzystaniu częstości dokumentu dla danego termu (df) – liczby dokumentów zawierających dany term. Podejścia oparte na grupowaniu (analizie skupień) hierarchicznym (hierarchical clustering). Podejścia z pierwszej grupy opierają się na następujących założeniach: Termy o wyższej częstości df (występujące w większej liczbie dokumentów) mają szersze znaczenie, termy o niższej mają znaczenie węższe. Jeśli więc term x ma wyższe df niż y, to x jest kandydatem na rodzica y.
Tezaurusy hierarchiczne Algorytm Forsytha i Rady Katedra Informatyki Algorytm Forsytha i Rady jest klasycznym algorytmem generowania tezaurusa hierarchicznego z wykorzystaniem częstości df i miar korelacji termów. Dzielimy przedział częstości wszystkich df na podprzedziały (tyle ile chcemy mieć poziomów w hierarchii). Przedział o najwyższej częstości oznaczamy przez 0, następny przez 1, itd. Grupujemy termy słownika podstawie ich df do poszczególnych przedziałów częstości. Każdemu przedziałowi odpowiada jedna klasa. Dla każdego termu t na poziomie i, obliczamy podobieństwo t do wszystkich termów na poziomie wyższym i-1. Jako miarę podobieństwa możemy przyjąć cosinus lub inną miarę korelacji (asocjacji) termów opisaną wcześniej. Term t staje się potomkiem termu o najwyższym podobieństwie. Jeśli kilka termów na poziomie i-1 spełnia ten warunek, t staje się potomkiem każdego z nich. Po powiązaniu wszystkich termów na poziomie i, sprawdzamy termy poziomu i-1, znajdując te które nie posiadają potomków. Tworzymy dla każdego z nich identycznego „sztucznego” potomka na poziomie i.
Tezaurusy hierarchiczne Algorytm Sandersona Katedra Informatyki Algorytm Sandersona wykorzystuje miarę tzw. subsumpcji (pociągania za sobą) termów. Term x pociąga za sobą term y, jeśli zbiór dokumentów w których występuje y jest podzbiorem zbioru dokumentów w których występuje x. Jeśli więc x ma wyższą częstość oraz pociąga za sobą y, jest kandydatem na rodzica y. Ponieważ relacja subsumpcji, ma charakter skierowany nie wymaga wcześniejszego podziału słownictwa na klasy odpowiadające przedziałom częstości df. Dla każdej pary termów x i y, takiej że df(x) >= df(y), określany jest zbiór dokumentów, które je zawierają. Przyjmujemy, że x pociąga za sobą y, jeśli: P(x|y) = P(x,y)/P(y) >= 0.8 oraz P(y|x) < P(x|y) Zależności między termami są porządkowane. Odrzucane są zależności przechodnie. Jeśli a pociąga b i b pociąga c, to zależność a pociąga c może zostać odrzucona.
Analiza lokalna Katedra Informatyki Analiza lokalna polega na rozszerzaniu zapytania z wykorzystaniem miar asocjacji między termami, wygenerowanymi na podstawie dokumentów z górnej części rankingu dokumentów wyszukanych dla tego zapytania. Schemat postępowania jest więc zbliżony jak w przypadku sprzężenia pseudo relewancji. Generalnie sprzężenie pseudo relewancji może być traktowane jako metoda analizy lokalnej. Metody te mogą również wykorzystywać do rozszerzenia zapytania korelacje między termami dokumentów najbardziej dopasowanych do zapytania przy użyciu metod analogicznych do analizy globalnej.