Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

WEDT Różności Wykład 12 Piotr Gawrysiak 2006.

Podobne prezentacje


Prezentacja na temat: "WEDT Różności Wykład 12 Piotr Gawrysiak 2006."— Zapis prezentacji:

1 WEDT Różności Wykład 12 Piotr Gawrysiak pgawrysiak@supermedia.pl 2006

2 WUT TWG 2006 Jeszcze o hiperłączach Założenia 1.Obecność łącza pomiędzy dwoma stronami związek semantyczny pomiędzy zawartością stron subiektywna informacja o jakości stron (PageRank) 2.Tekst w znaczniku subiektywny opis zawartości strony docelowej B opis w kontekście strony źródłowej A Strona A Hiperlink Strona B Anchor

3 WUT TWG 2006 Pierwsze zastosowania – McBryan, 1994 (WWW Worm) Przykład: poszukujemy strony domowej IBM słowa kluczowe : IBM, home page,... Jak odróżnić od siebie te strony? Strona domowa IBM Strona licencji IBM Spam konkurencji firmy IBM Indeksując zawartość strony WWW można zatem dołączyć informację o tekście odwołań hiperpołączeń Jeszcze o hiperłączach cd. Na stronie domowej IBM nie występuje fraza „home page”!!! www.ibm.com Armonk, NY-based computer giant IBM announced today Joe’s computer hardware links Compaq HP IBM Big Blue today announced record profits for the quarter

4 WUT TWG 2006 Oczywiście strategia ta może czasami mieć nieoczekiwane skutki np. evil empire = Microsoft Można zastosować różne współczynniki istotności do tekstu pochodzącego z treści strony i tego pochodzącego z hiperłączy Informację z tekstu hiperłączy wykorzystują często algorytmy analizujące strukturę grafu WWW (HITS, Hilltop) Czynione są też próby wykorzystania opisów hiperłączy do generacji streszczeń (czy też raczej etykiet) stron WWW Amitay, Paris, 2002 (SIGIR 2002) Często jest to łatwiejsze niż bezpośrednia generacja streszczenia, szczególnie w przypadku wyszukiwarki, która i tak dysponuje tekstem opisów hiperłączy Jeszcze o hiperłączach cd.

5 WUT TWG 2006 Sumaryzacja Sumaryzacja czyli streszczanie (ale skoro mamy angielski termin summarization...) Streszczenie - treść czegoś ujęta krótko, zwięźle (słownik języka polskiego PWN) W praktyce mamy do czynienia z dwoma rodzajami streszczeń: Informative summary Zawiera te same informacje co dokument źródłowy, przygotowane jednak w bardziej zwięzłej formie, może zatem zastąpić dokument źródłowy Bardzo trudne do automatycznego tworzenia – to zadanie na przyszłość... Przykład: executive summary Indicative summary Nie zawiera wszystkich informacji, określa tematykę dokumentu oryginalnego i służy do podjęcia decyzji – czy przeczytać dokument oryginalny czy też nie? Przykład: abstrakt artykułu naukowego

6 WUT TWG 2006 Czy sumaryzacja automatyczna jest potrzebna? W większości wypadków (gdy mamy do czynienia z dużym repozytorium tekstów) przeglądanie zbioru dokumentów wygląda następująco 1)przeczytanie streszczenia (typu indicative) 2)decyzja – relewantny lub nie 3)jeśli relewantny – przeczytanie całego dokumentu Dokumentów do przeczytania mamy coraz więcej (information explosion), zatem najczęściej czytamy tylko streszczenia Przykład – opisy stron WWW w wynikach wyszukiwarek internetowych, „headlines” wiadomości w kanale RSS itd. Ręczne tworzenie streszczeń jest kosztowne (a czasami niemożliwe) Można także rozważać jednoczesne streszczanie wielu dokumentów (multiple document summarization), wykorzystywane w systemach typu Google News, Columbia Newsblaster itp. opisy (raporty) zachowania osoby/urządzenia w czasie wiele wydarzeń o podobnej naturze / temacie Sumaryzacja

7 WUT TWG 2006 Algorytmy sumaryzacji Keyword summaries Zbitka najbardziej charakterystycznych słów kluczowych Bardzo łatwe w implementacji Słaba reprezentacja treści, trudne w „czytaniu” Sentence extraction Wybór najważniejszych zdań Średnio trudne Zwykle niezła reprezentacja treści Trudne w „czytaniu” Natural language understanding Stworzenie reprezentacji wiedzy zawartej w dokumencie Generacja zdań w NL opisujących stworzoną reprezentację Bardzo trudne

8 WUT TWG 2006 Sentence Extraction 1.Dla każdego zdania obliczamy „wagę opisowości” (feature rank) wskazującą na ile jest ono istotne dla treści dokumentu 1.Wybieramy n najlepszych zdań 1.Konstruujemy streszczenie umieszczając w nim wybrane zdania w kolejności ich występowania w oryginalnym dokumencie 1.Postprocessing – staramy się zbliżyć wynikowe streszczenie do formy wypowiedzi (a nie do zbitki zdań). Eliminacja redundantnych zdań Uproszczenie zdań złożonych Uwzględnienie zaimków itp., np: This proposal was criticized by EU trade representatives He is scheduled to meet with President Putin Monday

9 WUT TWG 2006 Cechy streszczeń Streszczenia tworzone ręcznie mają często wiele cech wspólnych długość streszczeń jest zwykle stała i niezależna od długości dokumentu źródłowego 85-90 słów (3-5 zdań) – Reuters, Los Angeles Times nieco poniżej 20% słów to nazwy własne 3.3 nazw / zdanie około 70% streszczeń z wiadomości agencji prasowych zawiera pierwsze zdanie wiadomości streszczenia zwykle nie zawierają bezpośrednich wypowiedzi i cytatów brak słów takich jak „said”, „adding”, „our” stopwords mogą być istotne

10 WUT TWG 2006 Feature ranking Fixed-phrase feature Niektóre konstrukcje wskazują na opisowość zdania np. “in summary”, „summing up” itd. Paragraph feature Pierwsze i ostatnie zdania w akapitach są zwykle bardziej istotne Thematic word feature Powtórzenia słów kluczowych wskazują na ważność zdań Uppercase word feature Wielkość liter ma znaczenie Sentence length cut-off Przyjmuje się najczęściej iż zdania „podsumowujące” powinny mieć długość większą niż np. 5 słów Powyższe można grupować używając heurystyk, albo też algorytmów uczących się – klasyfikacja (np. poprzez porównanie abstraktów artykułów naukowych i treści artykułów) Jakość (poprzez porównanie wybranych zdań i zdań w „ręcznych” abstraktach), Pedersen, 1995 (SIGIR95): Baseline (pierwszych n zdań w dokumencie) - 24% Średnio 42-44% ale... zawsze istnieje więcej niż jeden sposób na napisanie dobrego streszczenia!

11 WUT TWG 2006 Sumaryzacja - przykład algorytm z artykułu Pedersena, Kupiec i Chen’a (Sigir95) zastosowany do podsumowania tego artykułu abstrakt wygenerowany automatycznie

12 WUT TWG 2006 Sumaryzacja - przykład

13 WUT TWG 2006 Topic Detection & Tracking Topic Detection and Tracking (TDT) - Problem wykrywania wydarzeń w strumieniu informacji (zwykle – informacji agencyjnych) i następnie śledzenia i podsumowania napływających wiadomości First story detection (FSD) Wykrycie w strumieniu pierwszej wiadomości dotyczącej nowego wydarzenia Topic tracking Gdy już wykryto wydarzenie, przyporządkowanie do wydarzenia wszystkich kolejno napływających wiadomości To zwykły problem klasyfikacji......z tym że zbiór trenujący jest bardzo mały (na początku nawet jednoelementowy) Tworzony jest w ten sposób zbiór wiadomości dotyczących jednego zdarzenia - story Linking Rozpoznanie, czy dwie wiadomości dotyczą tego samego wydarzenia Zastosowania – serwisy wiadomości (także wywiadowcze), ale także np. w grze na giełdzie – kto pierwszy zareaguje na informacje o spółce

14 WUT TWG 2006 TDT - przykłady Thai Airbus Crash (11.12.98) On topic: stories reporting details of the crash, injuries and deaths; reports on the investigation following the crash; policy changes due to the crash (new runway lights were installed at airports). Euro Introduced (1.1.1999) On topic: stories about the preparation for the common currency (negotiations about exchange rates and financial standards to be shared among the member nations); official introduction of the Euro; economic details of the shared currency; reactions within the EU and around the world. Istnieje także korpus TDT (pilot study, TDT2 – TDT5) http://projects.ldc.upenn.edu/TDT/ wiadomości z lat 90-tych XX w. i lat 2000-2005, tagged corpus zbiór zdarzeń (np. dla TDT2 – 119 zdarzeń) używany do oceny jakości np. TDT2 - 60,000 news stories, około 3000 z nich dotyczy 119 zdarzeń wspomnianych powyżej wiadomości uporządkowane chronologicznie

15 WUT TWG 2006 First Story Detection Cel – wykryć pierwszą wiadomość dotyczącą wydarzenia, dla wszystkich wydarzeń. Czas First Stories Not First Stories = Topic 1 = Topic 2 Typowe spostrzeżenia Wiadomości dotyczące wydarzenia są zwykle bliskie w czasie Odstęp czasowy pomiędzy licznymi wystąpieniami podobnych semantycznie wiadomości oznacza zwykle różne wydarzenia różne trzęsienia ziemi rożne wypadki lotnicze... Zmiana słownictwa i znaczące zmiany w rozkładzie częstości słów mogą wskazywać na pojawienie się nowego wydarzenia, podobnie jak często pojawiające się, a poprzednio nie spotkane, nazwy własne Zdarzenia zwykle opisywane są w ciągu stosunkowo krótkiego czasu (1-4 tygodnie) Jakość (2002) – 50%-60% (miss rate), recall, precision ~ 40%

16 WUT TWG 2006 Przykładowe rozwiązanie Klasyfikacja Obliczanie podobieństwa do wszystkich poprzednich zbiorów opisów wydarzeń (stories) Podobieństwo wg. centroidu lub też zliczanie liczby pasujących opisów Jeśli podobieństwo większe od ustalonej granicy – nowe zdarzenie, jeśli nie – przyporządkowanie do najIepszego Uwzględnienie czasu Obliczanie podobieństwa tylko do opisów pasujących do przesuwanego „okna czasowego” Uwzględnienie „odległości” na osi czasu – im bardziej odległe wiadomości tym mniejsze prawdopodobieństwo iż dotyczą tego samego wydarzenia First Story Detection cd.

17 WUT TWG 2006 Zakończenie Głęboka analiza tekstu (ang. Deep Text Processing, DTP), a płytka analiza tekstu (ang. Shallow Text Processing, STP) WWW – czasem nie trzeba nawet analizować tekstu aby osiągnąć efekty Trzy obszary zastosowań Text Mining Drobiazgi – dostarczanie wycinków informacji potrzebnych uzytkownikowi Question Answering Information Retrieval... Uogólnienia – zapanowanie nad dużymi kolekcjami dokumentów Sumaryzacja Klasyfikacja Grupowanie Rzeczywisty Text Mining: Odkrywanie interesujących, a nieznanych informacji (w tym szczególnie – korelacji pomiędzy danymi) w zbiorach dokumentów

18 WUT TWG 2006 Zakończenie John stopped at the donut store on his way home from work. He thought a coffee was good every few hours. But it turned out to be too expensive there.


Pobierz ppt "WEDT Różności Wykład 12 Piotr Gawrysiak 2006."

Podobne prezentacje


Reklamy Google