WEDT Różności Wykład 12 Piotr Gawrysiak 2006.

Slides:



Advertisements
Podobne prezentacje
Excel Narzędzia do analizy regresji
Advertisements

PODZIAŁ STATYSTYKI STATYSTYKA STATYSTYKA MATEMATYCZNA STATYSTYKA
Topology of the World Trade Web. Świat jako twór stawiający wysokie wymagania Świat staje się globalną wioską- global village Ogromne znaczenie handlu.
B-learning na kierunku ‘dziennikarstwo i komunikacja społeczna’
Wprowadzenie do eksploracji tekstu i technik płytkiej analizy tekstu
Zrównoleglanie programu sekwencyjnego
Jakie strategie podczas czytania polskiego hipertekstu stosują uczący się języka polskiego jako obcego?
WEDT Klasyfikacja i grupowanie dokumentów
Klasyfikacja dokumentów tekstowych w oparciu o blogi
Co to jest studium przypadku?
WEBLOG jako źródło informacji. Definicja Webloga Blog (Weblog) to rodzaj strony internetowej, na której autor umieszcza datowane wpisy, wyświetlane kolejno,
Jakość sieci geodezyjnych. Pomiary wykonane z największą starannością, nie dostarczają nam prawdziwej wartości mierzonej wielkości, lecz są zwykle obarczone.
Algorytm Rochio’a.
Wprowadzenie do budowy usług informacyjnych
Wykład 2: Systemy klasy C.A.T. (Computer-Aided Translation)
Praca z dokumentem wielostronicowym - zakładka hiperłącze
Odkrywanie wzorców sekwencji
(ang. Hypertext Markup Language) - język znaczników hipertekstowych.
Google – sposoby wyszukiwania
Bibliotekarz – odkrywca. Agenda Proces tworzenia informacji Indeksy wyszukiwawcze Budowa rekordu w Promaxie Zapytania.
Strategia skutecznego szukania informacji w Internecie
Przedstawić się. Pytania na koniec.
Egzamin maturalny ustny z języka obcego obowiązujący od roku szkolnego 2011/2012 Prezentacja przygotowana na podstawie informacji zawartych w informatorze.
VI KONFERENCJA EWALUACYJNA
Wanda Klenczon Biblioteka Narodowa
Opracowała Urszula Guzikowska
Elementy Rachunku Prawdopodobieństwa i Statystyki
Style i szablony w Wordzie
XML – eXtensible Markup Language
Model inteligentnego agenta wspomagającego decyzje zakupu komputerów.
CZAS PAST SIMPLE.
Wprowadzenie do HTML Informatyka Cele lekcji: Wiadomości:
Gatunki dziennikarskie
Projektowanie stron WWW
Zasoby Internetowe Oxford University Press Niniejsza prezentacja podaje krótki opis Oxford Index. Mówi: czym jest Oxford Index jak może Ci pomóc jak.
Aplikacje internetowe
Aplikacje internetowe
W W W Łukasz Stochniał.
Wyszukiwanie informacji w internecie
Treści multimedialne - kodowanie, przetwarzanie, prezentacja Odtwarzanie treści multimedialnych Andrzej Majkowski 1 informatyka +
Znaki specjalne Co i jak + brak przykładów.  Aby wstawić symbol lub znak specjalny należy na karcie Wstawianie w grupie Symbole kliknąć na przycisk Symbol.
Informatyka – szkoła gimnazjalna – Scholaris - © DC Edukacja Formatowanie treści oraz grafika w kodzie HTML Informatyka.
Czyli króciutki opis języka programowania jakim jest HTML.
HTML Hyper Text Markup Language komputerowe Esperanto cz. I historia, struktura dokumentu.
Temat 1: CSS Dołączanie stylów do dokumentu
Beata Sanakiewicz. Spis treści  Łączenie dokumentów Łączenie dokumentów  Mechanizm OLE Mechanizm OLE  Obiekt osadzony Obiekt osadzony  Obiekt połączony.
Zwrot going to – określa nasze plany na przyszłość lub przewidywania:
Formatowanie dokumentów
Automatyczna interpretacja pytań i udzielanie odpowiedzi (Question & Answering)
Temat Prezentacji : ZNACZNIKI META TAGS wyk.H. Kozłowski.
Technika pisania przyrodniczych prac naukowych
Informatyka – szkoła gimnazjalna – Scholaris - © DC Edukacja Tworzenie stron WWW w programie Microsoft FrontPage Informatyka.
Temat nr 5 Struktura strony www _________________________________________________________________________________________________________________ [ Przedmiot:
Wyszukiwanie informacji w Internecie Marcin Wojnowski.
Microsoft® Office Word
Istotą kolumn jest przedzielenie strony na kilka części położonych obok siebie. Ilość kolumn jest generowana przez użytkownika, odpowiednio dla jego potrzeb.
czas teraźniejszy ciągły
Grupowanie danych statystycznych „ Człowiek – najlepsza inwestycja”
STATYSTYKA – kurs podstawowy wykład 8 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.
Parametry rozkładów Metodologia badań w naukach behawioralnych II.
CZAS PRESENT CONTINUOUS
MOWA ZALEŻNA Mowę zależną stosujemy, kiedy przekazujemy czyjąś wypowiedź pośrednio, nie cytując jej wprost.
Wprowadzenie do edytorów tekstu.
Past Simple Past Continuous
JAKUB BAREŁKOWSKI REKLAMA W WYSZUKIWARKACH
Wstęp do Informatyki - Wykład 14
{ Wsparcie informacyjne dla zarządzania strategicznego Tereshkun Volodymyr.
Tworzenie stron WWW w programie Microsoft FrontPage
Selekcja danych Korelacja.
ALGORYTMY I STRUKTURY DANYCH
Zapis prezentacji:

WEDT Różności Wykład 12 Piotr Gawrysiak 2006

WUT TWG 2006 Jeszcze o hiperłączach Założenia 1.Obecność łącza pomiędzy dwoma stronami związek semantyczny pomiędzy zawartością stron subiektywna informacja o jakości stron (PageRank) 2.Tekst w znaczniku subiektywny opis zawartości strony docelowej B opis w kontekście strony źródłowej A Strona A Hiperlink Strona B Anchor

WUT TWG 2006 Pierwsze zastosowania – McBryan, 1994 (WWW Worm) Przykład: poszukujemy strony domowej IBM słowa kluczowe : IBM, home page,... Jak odróżnić od siebie te strony? Strona domowa IBM Strona licencji IBM Spam konkurencji firmy IBM Indeksując zawartość strony WWW można zatem dołączyć informację o tekście odwołań hiperpołączeń Jeszcze o hiperłączach cd. Na stronie domowej IBM nie występuje fraza „home page”!!! Armonk, NY-based computer giant IBM announced today Joe’s computer hardware links Compaq HP IBM Big Blue today announced record profits for the quarter

WUT TWG 2006 Oczywiście strategia ta może czasami mieć nieoczekiwane skutki np. evil empire = Microsoft Można zastosować różne współczynniki istotności do tekstu pochodzącego z treści strony i tego pochodzącego z hiperłączy Informację z tekstu hiperłączy wykorzystują często algorytmy analizujące strukturę grafu WWW (HITS, Hilltop) Czynione są też próby wykorzystania opisów hiperłączy do generacji streszczeń (czy też raczej etykiet) stron WWW Amitay, Paris, 2002 (SIGIR 2002) Często jest to łatwiejsze niż bezpośrednia generacja streszczenia, szczególnie w przypadku wyszukiwarki, która i tak dysponuje tekstem opisów hiperłączy Jeszcze o hiperłączach cd.

WUT TWG 2006 Sumaryzacja Sumaryzacja czyli streszczanie (ale skoro mamy angielski termin summarization...) Streszczenie - treść czegoś ujęta krótko, zwięźle (słownik języka polskiego PWN) W praktyce mamy do czynienia z dwoma rodzajami streszczeń: Informative summary Zawiera te same informacje co dokument źródłowy, przygotowane jednak w bardziej zwięzłej formie, może zatem zastąpić dokument źródłowy Bardzo trudne do automatycznego tworzenia – to zadanie na przyszłość... Przykład: executive summary Indicative summary Nie zawiera wszystkich informacji, określa tematykę dokumentu oryginalnego i służy do podjęcia decyzji – czy przeczytać dokument oryginalny czy też nie? Przykład: abstrakt artykułu naukowego

WUT TWG 2006 Czy sumaryzacja automatyczna jest potrzebna? W większości wypadków (gdy mamy do czynienia z dużym repozytorium tekstów) przeglądanie zbioru dokumentów wygląda następująco 1)przeczytanie streszczenia (typu indicative) 2)decyzja – relewantny lub nie 3)jeśli relewantny – przeczytanie całego dokumentu Dokumentów do przeczytania mamy coraz więcej (information explosion), zatem najczęściej czytamy tylko streszczenia Przykład – opisy stron WWW w wynikach wyszukiwarek internetowych, „headlines” wiadomości w kanale RSS itd. Ręczne tworzenie streszczeń jest kosztowne (a czasami niemożliwe) Można także rozważać jednoczesne streszczanie wielu dokumentów (multiple document summarization), wykorzystywane w systemach typu Google News, Columbia Newsblaster itp. opisy (raporty) zachowania osoby/urządzenia w czasie wiele wydarzeń o podobnej naturze / temacie Sumaryzacja

WUT TWG 2006 Algorytmy sumaryzacji Keyword summaries Zbitka najbardziej charakterystycznych słów kluczowych Bardzo łatwe w implementacji Słaba reprezentacja treści, trudne w „czytaniu” Sentence extraction Wybór najważniejszych zdań Średnio trudne Zwykle niezła reprezentacja treści Trudne w „czytaniu” Natural language understanding Stworzenie reprezentacji wiedzy zawartej w dokumencie Generacja zdań w NL opisujących stworzoną reprezentację Bardzo trudne

WUT TWG 2006 Sentence Extraction 1.Dla każdego zdania obliczamy „wagę opisowości” (feature rank) wskazującą na ile jest ono istotne dla treści dokumentu 1.Wybieramy n najlepszych zdań 1.Konstruujemy streszczenie umieszczając w nim wybrane zdania w kolejności ich występowania w oryginalnym dokumencie 1.Postprocessing – staramy się zbliżyć wynikowe streszczenie do formy wypowiedzi (a nie do zbitki zdań). Eliminacja redundantnych zdań Uproszczenie zdań złożonych Uwzględnienie zaimków itp., np: This proposal was criticized by EU trade representatives He is scheduled to meet with President Putin Monday

WUT TWG 2006 Cechy streszczeń Streszczenia tworzone ręcznie mają często wiele cech wspólnych długość streszczeń jest zwykle stała i niezależna od długości dokumentu źródłowego słów (3-5 zdań) – Reuters, Los Angeles Times nieco poniżej 20% słów to nazwy własne 3.3 nazw / zdanie około 70% streszczeń z wiadomości agencji prasowych zawiera pierwsze zdanie wiadomości streszczenia zwykle nie zawierają bezpośrednich wypowiedzi i cytatów brak słów takich jak „said”, „adding”, „our” stopwords mogą być istotne

WUT TWG 2006 Feature ranking Fixed-phrase feature Niektóre konstrukcje wskazują na opisowość zdania np. “in summary”, „summing up” itd. Paragraph feature Pierwsze i ostatnie zdania w akapitach są zwykle bardziej istotne Thematic word feature Powtórzenia słów kluczowych wskazują na ważność zdań Uppercase word feature Wielkość liter ma znaczenie Sentence length cut-off Przyjmuje się najczęściej iż zdania „podsumowujące” powinny mieć długość większą niż np. 5 słów Powyższe można grupować używając heurystyk, albo też algorytmów uczących się – klasyfikacja (np. poprzez porównanie abstraktów artykułów naukowych i treści artykułów) Jakość (poprzez porównanie wybranych zdań i zdań w „ręcznych” abstraktach), Pedersen, 1995 (SIGIR95): Baseline (pierwszych n zdań w dokumencie) - 24% Średnio 42-44% ale... zawsze istnieje więcej niż jeden sposób na napisanie dobrego streszczenia!

WUT TWG 2006 Sumaryzacja - przykład algorytm z artykułu Pedersena, Kupiec i Chen’a (Sigir95) zastosowany do podsumowania tego artykułu abstrakt wygenerowany automatycznie

WUT TWG 2006 Sumaryzacja - przykład

WUT TWG 2006 Topic Detection & Tracking Topic Detection and Tracking (TDT) - Problem wykrywania wydarzeń w strumieniu informacji (zwykle – informacji agencyjnych) i następnie śledzenia i podsumowania napływających wiadomości First story detection (FSD) Wykrycie w strumieniu pierwszej wiadomości dotyczącej nowego wydarzenia Topic tracking Gdy już wykryto wydarzenie, przyporządkowanie do wydarzenia wszystkich kolejno napływających wiadomości To zwykły problem klasyfikacji......z tym że zbiór trenujący jest bardzo mały (na początku nawet jednoelementowy) Tworzony jest w ten sposób zbiór wiadomości dotyczących jednego zdarzenia - story Linking Rozpoznanie, czy dwie wiadomości dotyczą tego samego wydarzenia Zastosowania – serwisy wiadomości (także wywiadowcze), ale także np. w grze na giełdzie – kto pierwszy zareaguje na informacje o spółce

WUT TWG 2006 TDT - przykłady Thai Airbus Crash ( ) On topic: stories reporting details of the crash, injuries and deaths; reports on the investigation following the crash; policy changes due to the crash (new runway lights were installed at airports). Euro Introduced ( ) On topic: stories about the preparation for the common currency (negotiations about exchange rates and financial standards to be shared among the member nations); official introduction of the Euro; economic details of the shared currency; reactions within the EU and around the world. Istnieje także korpus TDT (pilot study, TDT2 – TDT5) wiadomości z lat 90-tych XX w. i lat , tagged corpus zbiór zdarzeń (np. dla TDT2 – 119 zdarzeń) używany do oceny jakości np. TDT2 - 60,000 news stories, około 3000 z nich dotyczy 119 zdarzeń wspomnianych powyżej wiadomości uporządkowane chronologicznie

WUT TWG 2006 First Story Detection Cel – wykryć pierwszą wiadomość dotyczącą wydarzenia, dla wszystkich wydarzeń. Czas First Stories Not First Stories = Topic 1 = Topic 2 Typowe spostrzeżenia Wiadomości dotyczące wydarzenia są zwykle bliskie w czasie Odstęp czasowy pomiędzy licznymi wystąpieniami podobnych semantycznie wiadomości oznacza zwykle różne wydarzenia różne trzęsienia ziemi rożne wypadki lotnicze... Zmiana słownictwa i znaczące zmiany w rozkładzie częstości słów mogą wskazywać na pojawienie się nowego wydarzenia, podobnie jak często pojawiające się, a poprzednio nie spotkane, nazwy własne Zdarzenia zwykle opisywane są w ciągu stosunkowo krótkiego czasu (1-4 tygodnie) Jakość (2002) – 50%-60% (miss rate), recall, precision ~ 40%

WUT TWG 2006 Przykładowe rozwiązanie Klasyfikacja Obliczanie podobieństwa do wszystkich poprzednich zbiorów opisów wydarzeń (stories) Podobieństwo wg. centroidu lub też zliczanie liczby pasujących opisów Jeśli podobieństwo większe od ustalonej granicy – nowe zdarzenie, jeśli nie – przyporządkowanie do najIepszego Uwzględnienie czasu Obliczanie podobieństwa tylko do opisów pasujących do przesuwanego „okna czasowego” Uwzględnienie „odległości” na osi czasu – im bardziej odległe wiadomości tym mniejsze prawdopodobieństwo iż dotyczą tego samego wydarzenia First Story Detection cd.

WUT TWG 2006 Zakończenie Głęboka analiza tekstu (ang. Deep Text Processing, DTP), a płytka analiza tekstu (ang. Shallow Text Processing, STP) WWW – czasem nie trzeba nawet analizować tekstu aby osiągnąć efekty Trzy obszary zastosowań Text Mining Drobiazgi – dostarczanie wycinków informacji potrzebnych uzytkownikowi Question Answering Information Retrieval... Uogólnienia – zapanowanie nad dużymi kolekcjami dokumentów Sumaryzacja Klasyfikacja Grupowanie Rzeczywisty Text Mining: Odkrywanie interesujących, a nieznanych informacji (w tym szczególnie – korelacji pomiędzy danymi) w zbiorach dokumentów

WUT TWG 2006 Zakończenie John stopped at the donut store on his way home from work. He thought a coffee was good every few hours. But it turned out to be too expensive there.