Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

Wprowadzenie do eksploracji tekstu i technik płytkiej analizy tekstu Wykład z przedmiotu Inteligentne Systemy Informacyjne mgr inż. Przemysław Sołdacki.

Podobne prezentacje


Prezentacja na temat: "Wprowadzenie do eksploracji tekstu i technik płytkiej analizy tekstu Wykład z przedmiotu Inteligentne Systemy Informacyjne mgr inż. Przemysław Sołdacki."— Zapis prezentacji:

1 Wprowadzenie do eksploracji tekstu i technik płytkiej analizy tekstu Wykład z przedmiotu Inteligentne Systemy Informacyjne mgr inż. Przemysław Sołdacki

2 Przemysław Sołdacki Plan prezentacji Text Mining & NLP Głęboka i płytka analiza tekstu Model płytkiej analizy tekstu Możliwości dalszego wykorzystania

3 Przemysław Sołdacki Text Mining & NLP Text Mining / Text Data Mining / TDM dziedzina zajmująca się przetwarzaniem zbiorów dokumentów w celu znalezienia informacji, która nie jest dostępna bezpośrednio lub też jest trudno dostępna. Jest to sposób znajdywania nowej wiedzy pośród olbrzymich zasobów tekstowych.

4 Przemysław Sołdacki Text Mining & NLP NLP (ang. Natural Language Processing) zbiór technik komputerowych służących do analizy i reprezentacji tekstów występujących na poziomie analizy lingwistycznej w celu uzyskania przypominającego ludzki sposobu przetwarzania języka w określonym zakresie zadań i zastosowań.

5 Przemysław Sołdacki Text Mining & NLP TDMNLP Przetwarzanie dużych zbiorów dokumentów tekstowych Zwykle przetwarzanie pojedynczych dokumentów Wykrywanie wcześnie nieznanych zależności i relacji występujących w tekstach Przetwarzanie danych w oparciu o predefiniowane wzorce lub gramatyki W większości automatyczneW większości kontrolowane przez użytkownika

6 Przemysław Sołdacki Zadania TDM Klasyfikacja dokumentów (ang. Document classification) Grupowanie dokumentów (ang. Document clustering) Sumaryzacja (ang. Summarization) Automatyczne rozpoznawanie języka (ang. Automatic Language Identification) Grupowanie pojęć (ang. Concept clustering) Wizualizacja i nawigacja Web Mining Wyszukiwanie informacji (ang. Information Retrieval, IR) Ekstrakcja informacji (ang. Information Extraction, IE)

7 Przemysław Sołdacki Wybrane techniki TDM Reprezentacje tekstu Prawo Zipfa Algorytmy klasyfikacji Rocchio Algorymy klasteryzacji Hierarchiczne K-Means

8 Przemysław Sołdacki Głęboka i płytka analiza tekstu Głęboka analiza tekstu (ang. Deep Text Processing, DTP) jest procesem komputerowej analizy lingwistycznej wszystkich możliwych interpretacji i relacji gramatycznych występujących w tekście naturalnym. bardzo złożona uzyskiwana informacja może nie być konieczna

9 Przemysław Sołdacki Głęboka i płytka analiza tekstu Płytka analiza tekstu (ang. Shallow Text Processing, STP) może być krótko określona jako analiza tekstu, której efekt jest niepełny w stosunku do głębokiej analizy tekstu. rozpoznawanie struktur nierekurencyjnych lub o ograniczonym poziomie rekurencji, które mogą być rozpoznane z dużym stopniem pewności. struktury wymagające złożonej analizy wielu możliwych rozwiązań są pomijane lub analizowane częściowo analiza skierowana jest głównie na rozpoznawanie nazw własnych, wyrażeń rzeczownikowych, grup czasownikowych bez rozpoznawania ich wewnętrznej struktury i funkcji w zdaniu.

10 Przemysław Sołdacki Głęboka i płytka analiza tekstu TEZA: Wykorzystywanie płytkiej analizy tekstu (zamiast głębokiej) może w wielu wypadkach okazać się wystarczająco do uzyskania potrzebnych informacji, a dzięki wprowadzeniu uproszczeń pozwala na uzyskanie oszczędności czasu. Przeprowadzenie głębokiej analizy prowadzącej do pełnego rozpoznania semantyki jest wciąż niemożliwe. Pomimo pewnych uproszczeń płytka analiza jest procesem złożonym, wymagającym rozwiązaniem wielu zagadnień lingwistycznych i stworzenia zestawu niezbędnych narzędzi.

11 Przemysław Sołdacki Model płytkiej analizy tekstu tokenizacja wykrywanie końca zdania analiza morfologiczna usuwanie niejednoznaczności zastępowanie zaimków wykrywanie nazw własnych rozkład zdań złożonych na zdania proste rozbiór zdań (?) …

12 Przemysław Sołdacki Tokenizacja Jednoznaczny podział tekstu na tokeny Jednolity i otwarty standard opisu tokenów (XML) Numeracja tokenów Przeniesienia

13 Przemysław Sołdacki Tokenizacja Atrybut token.rodzajTokena (w nawiasie przykłady tokenów): liczbaNaturalna (1234, ) liczbaRzeczywista (123,53, , ,76 ) liczbaProcent (23%) liczbaSymbol (234PLN, 987EUR, 100cm, $100, USD255) data (10/12/2004, , ) godzina (10:30, 10.30) slowoDuze (ABC, CMS) slowoMale (projekt, komin) slowoPierwszaDuza (Politechnika) slowoMieszane (PGNiG) skrot (potencjalnie skrót: mgr., abc., m.in., cddfs., S.A) url (http://www.abc.pl, https://abc.pl) CR – znak końca linii (do odtwarzania tekstu) tab – znak tabulacji ……

14 Przemysław Sołdacki Wykrywanie końca zdania Wykorzystanie znaków interpunkcyjnych Wykorzystanie wielkości liter Problemy: skróty, nazwy własne, cytaty, listy, dialogi… Rozwiązania: reguły, słowniki skrótów Zależność od dziedziny

15 Przemysław Sołdacki Wykrywanie końca zdania Atrybut zdanie.kontekst: Zwykly – normalny tekst Lista – element listy, wyliczenia itp. Dialog – fragment dialogu Cytat – element cytatu Tabela – komórka tabeli …

16 Przemysław Sołdacki Format pliku

17 Przemysław Sołdacki Analiza morfologiczna znajdywanie form podstawowych wyrazów (lematów), czyli tzw. stemming Zawodnik startuje w wyścigu. Zawodnicy startowali w wyścigach. rozpoznawania i oznaczania części mowy i ich form wykorzystanie słownika i reguł (ISPELL) synteza Problem: niejednoznaczność

18 Przemysław Sołdacki Analiza morfologiczna …

19 Przemysław Sołdacki Usuwanie niejednoznaczności niejednoznaczność on robi ona robi ono robi reguły kontekstowe (wiedza eksperta) ukryte modele markowa (anotowane zbiory trenujące)

20 Przemysław Sołdacki Zastępowanie zaimków Zmniejszenie zależności od kontekstu Przypisanie informacji do zaimków (stop-lista) Kryteria Zgodność rodzaju Zgodność liczby Zgodność kategorii znaczeniowej, np. zaimek osobowy (np. on) pasuje do wyrazu określającego osobę,

21 Przemysław Sołdacki Rozpoznawanie nazw własnych Rozpoznanie Przypisanie kategorii Organizacja, osoba, lokalizacja, czas (data, godzina), ilość (liczba, kwota pieniężna, procent) Wykorzystanie słowników Składnia (np. data) Heurystyki (np. z dużej litery) Problem: fleksja nazw własnych

22 Przemysław Sołdacki Rozkład zdań złożonych na proste Zdanie proste – aproksymacja faktu Uproszczenie rozbioru zdań (mniej reguł) Ułatwienie generacji streszczeń Ala ma kota i ona ma psa. Ala ma kota. Ala ma psa. Rozkład nie zawsze możliwy (zachowanie sensu) Jadzia jest tym dla nas, czym matka jest dla dzieci. Był taki, jak jest zawsze.

23 Przemysław Sołdacki Rozbiór zdań rekurencyjny – trudne statystyczno-adaptacyjny (HMM) heurystyczny – znakowanie części zdania Np. Reguła Orzeczenie. Ta reguła ma za zadanie znaleźć wszystkie orzeczenia słowne oraz łączniki orzeczeń imiennych. Reguła wyszukuje w pliku wszystkich form osobowych czasownika oznaczając je jako orzeczenie. Jeśli jest to forma osobowa czasownika być, zostać, okazać się, stać się, zrobić się to jest to łącznik w orzeczeniu imiennym. Reguła oprócz form osobowych czasownika wyszukuje wszystkie słowa to, które są łącznikami orzeczenia imiennego w równoważnikach zdania.

24 Przemysław Sołdacki Rozbiór zdań c.d. przykładu Reguła Przydawka. Rozpoznawanie przydawek odbywa się następujący sposób: wszystkie nierozpoznane przymiotniki są przydawkami wszystkie nierozpoznane liczebniki są przydawkami wszystkie nierozpoznane zaimki dzierżawcze, wskazujące, przymiotnikowe i liczebnikowe są przydawkami jeśli został znaleziony rzeczownik i nie został on rozpoznany wcześniej jako przydawka, to frazy stojące bezpośrednio za nim uznawane są za przydawki jeśli jest to rzeczownik lub wyrażenie przyimkowe lub czasownik w formie bezokolicznika.

25 Przemysław Sołdacki Możliwości dalszego wykorzystania Wykrywanie wątków tematycznych Sumaryzacja Klasyfikacja Klasteryzacja

26 Dziękuję za uwagę


Pobierz ppt "Wprowadzenie do eksploracji tekstu i technik płytkiej analizy tekstu Wykład z przedmiotu Inteligentne Systemy Informacyjne mgr inż. Przemysław Sołdacki."

Podobne prezentacje


Reklamy Google