Pobierz prezentację
Pobieranie prezentacji. Proszę czekać
OpublikowałDyta Buła Został zmieniony 11 lat temu
1
Wprowadzenie do eksploracji tekstu i technik płytkiej analizy tekstu
Wykład z przedmiotu Inteligentne Systemy Informacyjne mgr inż. Przemysław Sołdacki
2
Plan prezentacji Text Mining & NLP Głęboka i płytka analiza tekstu
Model płytkiej analizy tekstu Możliwości dalszego wykorzystania
3
Text Mining / Text Data Mining / TDM
Text Mining & NLP Text Mining / Text Data Mining / TDM dziedzina zajmująca się przetwarzaniem zbiorów dokumentów w celu znalezienia informacji, która nie jest dostępna bezpośrednio lub też jest trudno dostępna. Jest to sposób znajdywania nowej wiedzy pośród olbrzymich zasobów tekstowych.
4
NLP (ang. Natural Language Processing)
Text Mining & NLP NLP (ang. Natural Language Processing) zbiór technik komputerowych służących do analizy i reprezentacji tekstów występujących na poziomie analizy lingwistycznej w celu uzyskania przypominającego ludzki sposobu przetwarzania języka w określonym zakresie zadań i zastosowań.
5
Text Mining & NLP TDM NLP
Przetwarzanie dużych zbiorów dokumentów tekstowych Zwykle przetwarzanie pojedynczych dokumentów Wykrywanie wcześnie nieznanych zależności i relacji występujących w tekstach Przetwarzanie danych w oparciu o predefiniowane wzorce lub gramatyki W większości automatyczne W większości kontrolowane przez użytkownika
6
Zadania TDM Klasyfikacja dokumentów (ang. Document classification)
Grupowanie dokumentów (ang. Document clustering) Sumaryzacja (ang. Summarization) Automatyczne rozpoznawanie języka (ang. Automatic Language Identification) Grupowanie pojęć (ang. Concept clustering) Wizualizacja i nawigacja Web Mining Wyszukiwanie informacji (ang. Information Retrieval, IR) Ekstrakcja informacji (ang. Information Extraction, IE)
7
Wybrane techniki TDM Reprezentacje tekstu Prawo Zipfa
Algorytmy klasyfikacji Rocchio Algorymy klasteryzacji Hierarchiczne K-Means
8
Głęboka i płytka analiza tekstu
Głęboka analiza tekstu (ang. Deep Text Processing, DTP) jest procesem komputerowej analizy lingwistycznej wszystkich możliwych interpretacji i relacji gramatycznych występujących w tekście naturalnym. bardzo złożona uzyskiwana informacja może nie być konieczna
9
Głęboka i płytka analiza tekstu
Płytka analiza tekstu (ang. Shallow Text Processing, STP) może być krótko określona jako analiza tekstu, której efekt jest niepełny w stosunku do głębokiej analizy tekstu. rozpoznawanie struktur nierekurencyjnych lub o ograniczonym poziomie rekurencji, które mogą być rozpoznane z dużym stopniem pewności. struktury wymagające złożonej analizy wielu możliwych rozwiązań są pomijane lub analizowane częściowo analiza skierowana jest głównie na rozpoznawanie nazw własnych, wyrażeń rzeczownikowych, grup czasownikowych bez rozpoznawania ich wewnętrznej struktury i funkcji w zdaniu.
10
Głęboka i płytka analiza tekstu
TEZA: Wykorzystywanie płytkiej analizy tekstu (zamiast głębokiej) może w wielu wypadkach okazać się wystarczająco do uzyskania potrzebnych informacji, a dzięki wprowadzeniu uproszczeń pozwala na uzyskanie oszczędności czasu. Przeprowadzenie głębokiej analizy prowadzącej do pełnego rozpoznania semantyki jest wciąż niemożliwe. Pomimo pewnych uproszczeń płytka analiza jest procesem złożonym, wymagającym rozwiązaniem wielu zagadnień lingwistycznych i stworzenia zestawu niezbędnych narzędzi.
11
Model płytkiej analizy tekstu
tokenizacja wykrywanie końca zdania analiza morfologiczna usuwanie niejednoznaczności zastępowanie zaimków wykrywanie nazw własnych rozkład zdań złożonych na zdania proste rozbiór zdań (?) …
12
Tokenizacja Jednoznaczny podział tekstu na tokeny
Jednolity i otwarty standard opisu tokenów (XML) Numeracja tokenów Przeniesienia
13
Tokenizacja Atrybut token.rodzajTokena (w nawiasie przykłady tokenów):
liczbaNaturalna („1234”, „433 322”) liczbaRzeczywista („123,53”, „134.32”, „125 432,76” ) liczbaProcent (23%) liczbaSymbol (234PLN, 987EUR, 100cm, $100, USD255) data (10/12/2004, , ) godzina (10:30, 10.30) slowoDuze (ABC, CMS) slowoMale (projekt, komin) slowoPierwszaDuza (Politechnika) slowoMieszane (PGNiG) skrot (potencjalnie skrót: “mgr.”, „abc.”, „m.in.”, „cddfs.”, „S.A”) url ( CR – znak końca linii (do odtwarzania tekstu) tab – znak tabulacji ……
14
Wykrywanie końca zdania
Wykorzystanie znaków interpunkcyjnych Wykorzystanie wielkości liter Problemy: skróty, nazwy własne, cytaty, listy, dialogi… Rozwiązania: reguły, słowniki skrótów Zależność od dziedziny
15
Wykrywanie końca zdania
Atrybut zdanie.kontekst: Zwykly – normalny tekst Lista – element listy, wyliczenia itp. Dialog – fragment dialogu Cytat – element cytatu Tabela – komórka tabeli …
16
Format pliku <dokument> <historia>
<zadanie nr=”1” nazwa=”tokenizacja” wersja=”Kowalski” czas=”45” data=” :44”> </historia> <zdanie id=”1” kontekst=”zwykly”> <token id=”1” slowo=”Ala” rodzajTokena=”slowoPierwszaDuza” /> <token id=”2” slowo=”ma” rodzajTokena=”slowo” /> <token id=”3” slowo=”kota” rodzajTokena=”slowo” /> <token id=”4” slowo=”.” rodzajTokena=”znak” /> </zdanie> </dokument>
17
Analiza morfologiczna
znajdywanie form podstawowych wyrazów (lematów), czyli tzw. stemming Zawodnik startuje w wyścigu. Zawodnicy startowali w wyścigach. rozpoznawania i oznaczania części mowy i ich form wykorzystanie słownika i reguł (ISPELL) synteza Problem: niejednoznaczność
18
Analiza morfologiczna
<token id=”1” slowo=”Ala” rodzajTokena=”slowo” lemat=”Ala” czescMowy=”rzeczownik” przypadek=”mianownik” rodzaj=”zenski” liczebnosc=pojedynczy”/> <token id=”2” slowo=”ma” rodzajTokena=”slowo” lemat=”mieć” czescMowy=”czasownik” liczba=”pojedyncza” osoba=”trzecia” rodzaj=”meski” tryb=”orzekajacy” czas=terazniejszy” strona=”czynna” lewy=”1”/> <token id=”2” slowo=”ma” rodzajTokena=”slowo” lemat=”mieć” czescMowy=”czasownik” liczba=”pojedyncza” osoba=”trzecia” rodzaj=”zenski” tryb=”orzekajacy” czas=terazniejszy” strona=”czynna” lewy=”1”/> <token id=”2” slowo=”ma” rodzajTokena=”slowo” lemat=”mieć” czescMowy=”czasownik” liczba=”pojedyncza” osoba=”trzecia” rodzaj=”nijaki” tryb=”orzekajacy” czas=terazniejszy” strona=”czynna” lewy=”1”/> …
19
Usuwanie niejednoznaczności
on robi ona robi ono robi reguły kontekstowe (wiedza eksperta) ukryte modele markowa (anotowane zbiory trenujące)
20
Zastępowanie zaimków Zmniejszenie zależności od kontekstu
Przypisanie informacji do zaimków (stop-lista) Kryteria Zgodność rodzaju Zgodność liczby Zgodność kategorii znaczeniowej, np. zaimek osobowy (np. „on”) pasuje do wyrazu określającego osobę,
21
Rozpoznawanie nazw własnych
Rozpoznanie Przypisanie kategorii Organizacja, osoba, lokalizacja, czas (data, godzina), ilość (liczba, kwota pieniężna, procent) Wykorzystanie słowników Składnia (np. data) Heurystyki (np. z dużej litery) Problem: fleksja nazw własnych
22
Rozkład zdań złożonych na proste
Zdanie proste – aproksymacja faktu Uproszczenie rozbioru zdań (mniej reguł) Ułatwienie generacji streszczeń Ala ma kota i ona ma psa. Ala ma kota. Ala ma psa. Rozkład nie zawsze możliwy (zachowanie sensu) Jadzia jest tym dla nas, czym matka jest dla dzieci. Był taki, jak jest zawsze.
23
Rozbiór zdań rekurencyjny – trudne statystyczno-adaptacyjny (HMM)
heurystyczny – znakowanie części zdania Np. Reguła „Orzeczenie”. Ta reguła ma za zadanie znaleźć wszystkie orzeczenia słowne oraz łączniki orzeczeń imiennych. Reguła wyszukuje w pliku wszystkich form osobowych czasownika oznaczając je jako orzeczenie. Jeśli jest to forma osobowa czasownika „być”, „zostać”, „okazać się”, stać się”, zrobić się” to jest to łącznik w orzeczeniu imiennym. Reguła oprócz form osobowych czasownika wyszukuje wszystkie słowa „to”, które są łącznikami orzeczenia imiennego w równoważnikach zdania.
24
Rozbiór zdań c.d. przykładu
Reguła „Przydawka”. Rozpoznawanie przydawek odbywa się następujący sposób: wszystkie nierozpoznane przymiotniki są przydawkami wszystkie nierozpoznane liczebniki są przydawkami wszystkie nierozpoznane zaimki dzierżawcze, wskazujące, przymiotnikowe i liczebnikowe są przydawkami jeśli został znaleziony rzeczownik i nie został on rozpoznany wcześniej jako przydawka, to frazy stojące bezpośrednio za nim uznawane są za przydawki jeśli jest to rzeczownik lub wyrażenie przyimkowe lub czasownik w formie bezokolicznika.
25
Możliwości dalszego wykorzystania
Wykrywanie wątków tematycznych Sumaryzacja Klasyfikacja Klasteryzacja
26
Dziękuję za uwagę
Podobne prezentacje
© 2024 SlidePlayer.pl Inc.
All rights reserved.