Wprowadzenie do eksploracji tekstu i technik płytkiej analizy tekstu

Slides:



Advertisements
Podobne prezentacje
Lingwistyka Matematyczna
Advertisements

Data Mining w e-commerce
REGUŁOWO-MODELOWE SKORUPOWE SYSTEMY EKSPERTOWE Część 1
przetwarzaniu informacji
Badania operacyjne. Wykład 1
Maciej Piasecki CLARIN-PL Politechnika Wrocławska Instytut Informatyki
Materiały pochodzą z Platformy Edukacyjnej Portalu
XPath. XSLT – część XPath. XSLT – część 12 XPath – XML Path Language Problem: –jednoznaczne adresowanie fragmentów struktury dokumentu XML.
CLUSTERING Metody grupowania danych Plan wykładu Wprowadzenie Dziedziny zastosowania Co to jest problem klastrowania? Problem wyszukiwania optymalnych.
Metoda pierwszeństwa operatorów
® System do analizy tekstów ortograficznych Cezary Dołęga,
JĘZYK POLSKI KLASY IV - VI
Klasyfikacja dokumentów tekstowych w oparciu o blogi
Zastosowanie pamięci semantycznej we wspomaganiu decyzji medycznych
Poprawność języka polskiego w Mazowieckim Urzędzie Wojewódzkim w Warszawie Warszawa, r.
Wykład 2: Systemy klasy C.A.T. (Computer-Aided Translation)
XML. Pierwszy dokument XML Witaj świecie! Elementy i atrybuty niezwykle oryginalny Witaj świecie! Druga możliwość: Witaj świecie!
Inteligentne Systemy Informacyjne
Microsoft WinFS – nowy system plików, zasada działania. Wojtek Galek.
Wykład 7 Wojciech Pieprzyca
Klasyfikacja Obcinanie drzewa Naiwny klasyfikator Bayes’a kNN
GeoTrackerPast Web tracking in 4 dimensions. Informacje Temat: System wyszukiwania haseł w Internecie(?) Promotor: dr Mikołaj Morzy Skład: – Tomasz Szymanowski.
Techniki digitalizacji, organizowania oraz efektywnego wyszukiwania informacji z dokumentów tekstowych Remigiusz Baran, Andrzej Dziech, Paweł Fornalski,
Modele baz danych - spojrzenie na poziom fizyczny
LIWC2001 Linguistic Inquiry and Word Count () LIWC2001 Linguistic Inquiry and Word Count (James W. Pennebaker Martha E. Francis & Roger J Booth;
Google – sposoby wyszukiwania
Zaawansowane przetwarzanie tekstu dla potrzeb bibliotek cyfrowych Stanisław Osiński
Klasyfikacja dokumentów za pomocą sieci radialnych
Bibliotekarz – odkrywca. Agenda Proces tworzenia informacji Indeksy wyszukiwawcze Budowa rekordu w Promaxie Zapytania.
Strategia skutecznego szukania informacji w Internecie
Promotor: prof. zw. dr hab. inż. Jacek Mościński
Podstawy programowania
Technologia informacyjna
BIBLIOTEKA WYŻSZEJ SZKOŁY ADMINISTRACJI I BIZNESU INSTRUKCJA KORZYSTANIA Z KATALOGU ON-LINE.
XML – eXtensible Markup Language
Co to są alternatywne i wspomagające metody komunikacji?
Wybrane zagadnienia relacyjnych baz danych
KOMUNIKACJA ALTERNATYWNA - PIKTOGRAMY
Ujarzmić Worda Agnieszka Terebus.
Wprowadzenie do HTML Informatyka Cele lekcji: Wiadomości:
SYSTEMY EKSPERTOWE I SZTUCZNA INTELIGENCJA
W W W Łukasz Stochniał.
Treści multimedialne - kodowanie, przetwarzanie, prezentacja Odtwarzanie treści multimedialnych Andrzej Majkowski 1 informatyka +
Materiały pochodzą z Platformy Edukacyjnej Portalu
Treści multimedialne - kodowanie, przetwarzanie, prezentacja Odtwarzanie treści multimedialnych Andrzej Majkowski informatyka +
GRAMATYKA ŁATWA I PRZYJEMNA.
Modelowanie Kognitywne
Języki formalne Copyright, 2006 © Jerzy R. Nawrocki Wprowadzenie do informatyki Wykład.
Iga Lewandowska I EMII MU
Automatyczna interpretacja pytań i udzielanie odpowiedzi (Question & Answering)
Transfer Wiedzy w Leśnym Centrum Informacji dr inż. Dorota Farfał Sękocin Stary 5 grudnia 2011 r.
Dane – informacje - wiadomości Kodowanie danych i problem nadmiarowości.
10. Wiedza o języku Studia Podyplomowe „Polski Język Migowy”
I TY ZOSTAŃ WEBMASTEREM! CZĘŚĆ 2 – „STRUKTURA STRONY” STWORZYŁ GABRIEL ŚLAWSKI.
INTERNET jako „ocean informacji”
Spotkanie 5 Poliqarp.. Znakowanie – tagging Narzędzie do znakowania – tager Znakowanie: przypisywanie jednostkom tekstowym jakichś kodów (tagów): 1. lokalizacja.
Wstęp do programowania Wykład 9
BAZY DANYCH Microsoft Access Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej Katedra Automatyki i.
Części mowy Edyta Sawicka.
Maciej Romanowski. Wirusy komputerowe to programy tworzone specjalnie do zakłócania pracy komputera, rejestrowania, uszkadzania lub rozprzestrzeniania.
Ontologie Monika Nawrot Agnieszka Janowska Akademia Górniczo-Hutnicza Kraków 2006.
WIZUALIZACJA ZBIORÓW BIBLIOTEKI GŁÓWNEJ POLITECHNIKI WARSZAWSKIEJ Lizbona Agnieszka Maria Kowalczuk, Łukasz Skonieczny, Małgorzata Wornbard.
Kształtowanie kompetencji komunikacyjnych wiedza o języku w szkole podstawowej i gimnazjum.
Egzamin gimnazjalny z języka angielskiego - poziom podstawowy.
Części zdania pojedynczego
Hipertekst HTML WWW.
Egzamin gimnazjalny z języka angielskiego - poziom podstawowy.
Treści multimedialne - kodowanie, przetwarzanie, prezentacja Odtwarzanie treści multimedialnych Andrzej Majkowski informatyka +
Wyniki próbnego egzaminu gimnazjalnego – język obcy nowożytny.
Modele baz danych - spojrzenie na poziom fizyczny
Zapis prezentacji:

Wprowadzenie do eksploracji tekstu i technik płytkiej analizy tekstu Wykład z przedmiotu Inteligentne Systemy Informacyjne mgr inż. Przemysław Sołdacki

Plan prezentacji Text Mining & NLP Głęboka i płytka analiza tekstu Model płytkiej analizy tekstu Możliwości dalszego wykorzystania

Text Mining / Text Data Mining / TDM Text Mining & NLP Text Mining / Text Data Mining / TDM dziedzina zajmująca się przetwarzaniem zbiorów dokumentów w celu znalezienia informacji, która nie jest dostępna bezpośrednio lub też jest trudno dostępna. Jest to sposób znajdywania nowej wiedzy pośród olbrzymich zasobów tekstowych.

NLP (ang. Natural Language Processing) Text Mining & NLP NLP (ang. Natural Language Processing) zbiór technik komputerowych służących do analizy i reprezentacji tekstów występujących na poziomie analizy lingwistycznej w celu uzyskania przypominającego ludzki sposobu przetwarzania języka w określonym zakresie zadań i zastosowań.

Text Mining & NLP TDM NLP Przetwarzanie dużych zbiorów dokumentów tekstowych Zwykle przetwarzanie pojedynczych dokumentów Wykrywanie wcześnie nieznanych zależności i relacji występujących w tekstach Przetwarzanie danych w oparciu o predefiniowane wzorce lub gramatyki W większości automatyczne W większości kontrolowane przez użytkownika

Zadania TDM Klasyfikacja dokumentów (ang. Document classification) Grupowanie dokumentów (ang. Document clustering) Sumaryzacja (ang. Summarization) Automatyczne rozpoznawanie języka (ang. Automatic Language Identification) Grupowanie pojęć (ang. Concept clustering) Wizualizacja i nawigacja Web Mining Wyszukiwanie informacji (ang. Information Retrieval, IR) Ekstrakcja informacji (ang. Information Extraction, IE)

Wybrane techniki TDM Reprezentacje tekstu Prawo Zipfa Algorytmy klasyfikacji Rocchio Algorymy klasteryzacji Hierarchiczne K-Means

Głęboka i płytka analiza tekstu Głęboka analiza tekstu (ang. Deep Text Processing, DTP) jest procesem komputerowej analizy lingwistycznej wszystkich możliwych interpretacji i relacji gramatycznych występujących w tekście naturalnym. bardzo złożona uzyskiwana informacja może nie być konieczna

Głęboka i płytka analiza tekstu Płytka analiza tekstu (ang. Shallow Text Processing, STP) może być krótko określona jako analiza tekstu, której efekt jest niepełny w stosunku do głębokiej analizy tekstu. rozpoznawanie struktur nierekurencyjnych lub o ograniczonym poziomie rekurencji, które mogą być rozpoznane z dużym stopniem pewności. struktury wymagające złożonej analizy wielu możliwych rozwiązań są pomijane lub analizowane częściowo analiza skierowana jest głównie na rozpoznawanie nazw własnych, wyrażeń rzeczownikowych, grup czasownikowych bez rozpoznawania ich wewnętrznej struktury i funkcji w zdaniu.

Głęboka i płytka analiza tekstu TEZA: Wykorzystywanie płytkiej analizy tekstu (zamiast głębokiej) może w wielu wypadkach okazać się wystarczająco do uzyskania potrzebnych informacji, a dzięki wprowadzeniu uproszczeń pozwala na uzyskanie oszczędności czasu. Przeprowadzenie głębokiej analizy prowadzącej do pełnego rozpoznania semantyki jest wciąż niemożliwe. Pomimo pewnych uproszczeń płytka analiza jest procesem złożonym, wymagającym rozwiązaniem wielu zagadnień lingwistycznych i stworzenia zestawu niezbędnych narzędzi.

Model płytkiej analizy tekstu tokenizacja wykrywanie końca zdania analiza morfologiczna usuwanie niejednoznaczności zastępowanie zaimków wykrywanie nazw własnych rozkład zdań złożonych na zdania proste rozbiór zdań (?) …

Tokenizacja Jednoznaczny podział tekstu na tokeny Jednolity i otwarty standard opisu tokenów (XML) Numeracja tokenów Przeniesienia

Tokenizacja Atrybut token.rodzajTokena (w nawiasie przykłady tokenów): liczbaNaturalna („1234”, „433 322”) liczbaRzeczywista („123,53”, „134.32”, „125 432,76” ) liczbaProcent (23%) liczbaSymbol (234PLN, 987EUR, 100cm, $100, USD255) data (10/12/2004, 10-12-2004, 10.12.2004) godzina (10:30, 10.30) slowoDuze (ABC, CMS) slowoMale (projekt, komin) slowoPierwszaDuza (Politechnika) slowoMieszane (PGNiG) skrot (potencjalnie skrót: “mgr.”, „abc.”, „m.in.”, „cddfs.”, „S.A”) email (abc@cdf.pl) url (http://www.abc.pl, www.abc.pl, https://abc.pl) CR – znak końca linii (do odtwarzania tekstu) tab – znak tabulacji ……

Wykrywanie końca zdania Wykorzystanie znaków interpunkcyjnych Wykorzystanie wielkości liter Problemy: skróty, nazwy własne, cytaty, listy, dialogi… Rozwiązania: reguły, słowniki skrótów Zależność od dziedziny

Wykrywanie końca zdania Atrybut zdanie.kontekst: Zwykly – normalny tekst Lista – element listy, wyliczenia itp. Dialog – fragment dialogu Cytat – element cytatu Tabela – komórka tabeli …

Format pliku <dokument> <historia> <zadanie nr=”1” nazwa=”tokenizacja” wersja=”Kowalski” czas=”45” data=”2004.12.15 16:44”> </historia> <zdanie id=”1” kontekst=”zwykly”> <token id=”1” slowo=”Ala” rodzajTokena=”slowoPierwszaDuza” /> <token id=”2” slowo=”ma” rodzajTokena=”slowo” /> <token id=”3” slowo=”kota” rodzajTokena=”slowo” /> <token id=”4” slowo=”.” rodzajTokena=”znak” /> </zdanie> </dokument>

Analiza morfologiczna znajdywanie form podstawowych wyrazów (lematów), czyli tzw. stemming Zawodnik startuje w wyścigu. Zawodnicy startowali w wyścigach. rozpoznawania i oznaczania części mowy i ich form wykorzystanie słownika i reguł (ISPELL) synteza Problem: niejednoznaczność

Analiza morfologiczna <token id=”1” slowo=”Ala” rodzajTokena=”slowo” lemat=”Ala” czescMowy=”rzeczownik” przypadek=”mianownik” rodzaj=”zenski” liczebnosc=pojedynczy”/> <token id=”2” slowo=”ma” rodzajTokena=”slowo” lemat=”mieć” czescMowy=”czasownik” liczba=”pojedyncza” osoba=”trzecia” rodzaj=”meski” tryb=”orzekajacy” czas=terazniejszy” strona=”czynna” lewy=”1”/> <token id=”2” slowo=”ma” rodzajTokena=”slowo” lemat=”mieć” czescMowy=”czasownik” liczba=”pojedyncza” osoba=”trzecia” rodzaj=”zenski” tryb=”orzekajacy” czas=terazniejszy” strona=”czynna” lewy=”1”/> <token id=”2” slowo=”ma” rodzajTokena=”slowo” lemat=”mieć” czescMowy=”czasownik” liczba=”pojedyncza” osoba=”trzecia” rodzaj=”nijaki” tryb=”orzekajacy” czas=terazniejszy” strona=”czynna” lewy=”1”/> …

Usuwanie niejednoznaczności on robi ona robi ono robi reguły kontekstowe (wiedza eksperta) ukryte modele markowa (anotowane zbiory trenujące)

Zastępowanie zaimków Zmniejszenie zależności od kontekstu Przypisanie informacji do zaimków (stop-lista) Kryteria Zgodność rodzaju Zgodność liczby Zgodność kategorii znaczeniowej, np. zaimek osobowy (np. „on”) pasuje do wyrazu określającego osobę,

Rozpoznawanie nazw własnych Rozpoznanie Przypisanie kategorii Organizacja, osoba, lokalizacja, czas (data, godzina), ilość (liczba, kwota pieniężna, procent) Wykorzystanie słowników Składnia (np. data) Heurystyki (np. z dużej litery) Problem: fleksja nazw własnych

Rozkład zdań złożonych na proste Zdanie proste – aproksymacja faktu Uproszczenie rozbioru zdań (mniej reguł) Ułatwienie generacji streszczeń Ala ma kota i ona ma psa.  Ala ma kota. Ala ma psa. Rozkład nie zawsze możliwy (zachowanie sensu) Jadzia jest tym dla nas, czym matka jest dla dzieci. Był taki, jak jest zawsze.

Rozbiór zdań rekurencyjny – trudne statystyczno-adaptacyjny (HMM) heurystyczny – znakowanie części zdania Np. Reguła „Orzeczenie”. Ta reguła ma za zadanie znaleźć wszystkie orzeczenia słowne oraz łączniki orzeczeń imiennych. Reguła wyszukuje w pliku wszystkich form osobowych czasownika oznaczając je jako orzeczenie. Jeśli jest to forma osobowa czasownika „być”, „zostać”, „okazać się”, stać się”, zrobić się” to jest to łącznik w orzeczeniu imiennym. Reguła oprócz form osobowych czasownika wyszukuje wszystkie słowa „to”, które są łącznikami orzeczenia imiennego w równoważnikach zdania.

Rozbiór zdań c.d. przykładu Reguła „Przydawka”. Rozpoznawanie przydawek odbywa się następujący sposób: wszystkie nierozpoznane przymiotniki są przydawkami wszystkie nierozpoznane liczebniki są przydawkami wszystkie nierozpoznane zaimki dzierżawcze, wskazujące, przymiotnikowe i liczebnikowe są przydawkami jeśli został znaleziony rzeczownik i nie został on rozpoznany wcześniej jako przydawka, to frazy stojące bezpośrednio za nim uznawane są za przydawki jeśli jest to rzeczownik lub wyrażenie przyimkowe lub czasownik w formie bezokolicznika.

Możliwości dalszego wykorzystania Wykrywanie wątków tematycznych Sumaryzacja Klasyfikacja Klasteryzacja

Dziękuję za uwagę psoldack@datacom.pl