Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

WUT TWG 2005 WEDT Wprowadzenie do eksploracji danych tekstowych w środowisku WWW Piotr Gawrysiak Politechnika Warszawska Zakład.

Podobne prezentacje


Prezentacja na temat: "WUT TWG 2005 WEDT Wprowadzenie do eksploracji danych tekstowych w środowisku WWW Piotr Gawrysiak Politechnika Warszawska Zakład."— Zapis prezentacji:

1 WUT TWG 2005 WEDT Wprowadzenie do eksploracji danych tekstowych w środowisku WWW Piotr Gawrysiak Politechnika Warszawska Zakład Systemów Informacyjnych 2005

2 WUT TWG 2005 Sprawy organizacyjne Zaliczenie: Egzamin – 60% oceny końcowej Projekt – 40% oceny końcowej Zaliczenie projektu jest warunkiem koniecznym zaliczenia przedmiotu, ocena 5.0 z projektu zwalnia z egzaminu Dyżur: środa, 15:15 – 16:00, 302 lub 043D lub nowe pomieszczenia laboratorium BRAMA Materiały do wykładu (slajdy, ew. artykuły naukowe + software): Kontakt mailowy: W treści nagłówka proszę wpisać [WEDT]

3 WUT TWG 2005 Literatura i oprogramowanie 1.Chris Manning, Hinrich Schütze, Foundations of Statistical Natural Language Processing, MIT Press, 1999 Errata: 2.Dan Jurafsky, James H. Martin Speech and Language Processing, Prentice-Hall, 2000 Errata: 3.Mieczysław Kłopotek, Inteligentne wyszukiwarki internetowe, Exit, Douglas R. Hofstadter, Gödel, Escher, Bach: an Eternal Golden Braid, Basic Books, Python NLTK (Natural Language Toolkit) 6.Open NLP 7.Oprogramowanie udostępnione PW (IBM, SAS, Reuters Corpus itp.)

4 WUT TWG 2005 Plan wykładu 1.Wprowadzenie /co to jest NLP i dlaczego jest ważne/ 2.Wiadomości podstawowe /statystyka, teoria informacji, lingwistyka/ 3.Źródła danych /text corpora/ 4.Słowa i zdania /regular expressions, tokenization/ 5.Fleksja /stemming/ 6.Analiza statystyczna /modele dokumentów, modele języka, collocations, word sense disambiguation/ 7.Analiza gramatyczna /HMM, POS tagging, PCFG, parsing/ 8.Wyszukiwanie informacji 9.Kategoryzacja i grupowanie dokumentów 10.Streszczanie dokumentów 11.Tłumaczenie automatyczne 12.Analiza dokumentów hipertekstowych 13.Web Farming, SEO (Search Engine Optimization) Teoria Zastosowania WWW

5 WUT TWG 2005 Eksplozja informacyjna Zwiększające się znaczenie Internetu jako kanału dystrybucji informacji Minimalne koszty powielania informacji w formie elektronicznej Większość ludzkiej wiedzy zapisana jest w postaci dokumentów w języku naturalnym

6 WUT TWG 2005 Święty Graal informatyki Sztuczna Inteligencja (AI) Możliwość porozumiewania się z maszyną w języku naturalnym Test Turinga /... ale Chiński Pokój itd./ To jest zwyczajnie użyteczne! Wyszukiwarki internetowe Automatyczne tłumaczenie Speech command /Star Trek LCARS/ Tworzenie dokumentów... Choć w zasadzie oznaczałoby koniec profesji programisty Potrafimy liczyć znacznie szybciej niż na początku XX wieku, ale czy potrafimy szybciej czytać? Zakład pomiędzy Mitchem Kaporem i Ray Kurzweilem o $10,000 – test Turinga w 2029 WUT DMG NOV 2001

7 WUT TWG 2005 NLP, NLU, NLG,... NLP – Natural Language Processing Właściwie wszystko, co jest związane z przetwarzaniem informacji zapisanej w języku naturalnym Inne nazwy: Computational Linguistics (CL), Human Language Technology (HLT), Natural Language Engineering (NLE) NLU – Natural Language Understanding Dosłownie rozumienie języka naturalnego Co to jednak znaczy rozumienie? Semantyka i logika Rozumienie nie zawsze okazuje się niezbędne (Chiński Pokój - znowu) NLG – Natural Language Generation To akurat jest proste (o ile nie mamy wygórowanych wymagań) Przykład: korpus – dzieła wszystkie Szekspira Trigram : What its that cried? The sweet! How many then shall posthumus end his miseries! Tetragram : Enter Leonatos brother Antonio, and the rest, but seek the weary beds of people sick.

8 WUT TWG 2005 Niestety NLU jest trudne Nawet w tak prostym języku jak angielski: Iraqi Head Seeks Arms Teacher Strikes Idle Kids Stolen Painting Found by Tree Kids Make Nutritious Snacks Obesity Study Looks for Larger Test Group Red Tape Holds Up New Bridges Man Struck by Lightning Faces Battery Charge Clinton Wins on Budget, but More Lies Ahead Hospitals Are Sued by 7 Foot Doctors A może być jeszcze gorzej: Brak reguł gramatycznych (wyjątki i wyjątki od wyjątków) Potato – potato es, tomato – tomato es, hero – hero es, photo es??? new book, flower garden, garden flower Homonimy, synonimy To book a flight, to borrow a book Struktura wypowiedzi Freds hat was blown by the wind. He tried to catch it. W języku polskim: fleksja dowolny szyk zdania a pozostałe problemy nie znikają: jest szybka w łóżku

9 WUT TWG 2005 Niestety NLU jest trudne John stopped at the donut store on his way home from work. He thought a coffee was good every few hours. But it turned out to be too expensive there. Przykład – J. Eisner store where donuts shop? or is run by donuts? or looks like a big donut? or made of donut? or has an emptiness at its core? I stopped smoking freshman year, but John stopped at the donut store Describes where the store is? Or when he stopped? he stopped there from hunger and exhaustion, not just from work. At that moment, or habitually? /Similarly: Mozart composed music./ Thats how often he thought it? But actually, a coffee only stays good for about 10 minutes before it gets cold. Similarly: In America a woman has a baby every 15 minutes. Our job is to find that woman and stop her. the particular coffee that was good every few hours? the donut store? the situation?...a to zaledwie trzy zdania.

10 WUT TWG 2005 Jak zatem radzą sobie ludzie? FINISHED FILES ARE RESULT OF YEARS OF SCIENTIFIC STUDY COMBINED WITH THE EXPERIENCE OF YEARS

11 WUT TWG 2005 Jak zatem radzą sobie ludzie? THE SILLIEST MISTAKE IN IN THE WORLD

12 WUT TWG 2005 Cechy języka naturalnego Język naturalny Nieprecyzyjny (na wszystkich poziomach) Fonetyka, morfologia: dźwięki i słowa Składnia: zdania i ich struktura Semantyka: znaczenie treści wypowiedzi Pragmatyka: znaczenie samej wypowiedzi w świecie Skomplikowany (nawet jeśli uznać reguły gramatyczne) Wymaga posiadania wiedzy o świecie Narzędzia Wiedza o języku Wiedza o świecie Sposób na ich połączenie Ale czasami NLU jest łatwe – czasem (rzadko...) same informacje ilościowe o tekście wystarczają Ostatnio modny trend - modele probabilistyczne P(maison house) wysoko prawdopodobne P(Lavocat general the general avocado) nisko

13 WUT TWG 2005 Cechy języka naturalnego Sama znajomość gramatyki nie jest wystarczająca: Every man saw the boy with his binoculars Rozbiór zdania:

14 WUT TWG 2005 Dwa podejścia w NLP Gramatyczne Język naturalny można opisać wykorzystując aparat logiki matematycznej Lingwistyka porównawcza – Jakob Grimm, Rasmus Rask Noam Chomsky – I-Language i E-language Argument poverty of stimulus Statystyczne Przekonanie, iż struktura i reguły użycia słów w języku naturalnym można odkryć, analizując rzeczywiste wypowiedzi Najlepiej analizować dużo wypowiedzi... Bardzo dużo wypowiedzi... Statystyka Pierwsze próby – Markow /łańcuchy Markowa/, Shannon /gra Shannona/

15 WUT TWG 2005 Przykład metody statystycznej Word sense disambiguation (WSD): They put the money in the bank Potrzebny jest korpus poprawnych tekstów w języku angielskim. Na jego podstawie należy obliczyć prawdopodobieństwa: P 1 – współwystępowanie P 2 – współwystępowanie P 1 > P 2 River bank?Savings bank?

16 WUT TWG 2005 Nieco historii 1900 – początki eksperymenty w logice matematycznej, automatyczne dowodzenie twierdzeń (to jeszcze plan Hilberta), formalna teoria języka – Tarski, Russel, Wittgenstein łańcuchy Markowa, rozwój statystyki – lingwistyka empiryczna (Harris, Firth) You shall know a word by a company it keeps – Firth Model kanału transmisyjnego (Shannon) – statystyka uznana za niesłuszną Chomsky, pojęcie gramatyczności Every day I fire a linguist my efficiency goes up Gramatyka symboliczna (Prolog) od 1980 – powrót do metod statystycznych Rozwój metod eksploracji danych opartych na statystyce Wpływ badań nad rozpoznawaniem mowy (IBM) A co z Text Mining?

17 WUT TWG 2005 Data Mining Data Mining is understood as a process of automatically extracting meaningful, useful, previously unknown and ultimately comprehensible information from large databases. – Piatetsky-Shapiro Association rule discovery Sequential pattern discovery Categorization Clustering Statistics (mostly regression) Visualization

18 WUT TWG 2005 Piramida wiedzy Signals Data Mining Data Information Knowledge Wisdom Zasoby Poziom semantyczny

19 WUT TWG 2005 Text Mining = Metody Data Mining + Klasyczne NLP WUT DMG NOV 2001 Text Mining is understood as a process of automatically extracting meaningful, useful, previously unknown and ultimately comprehensible information from textual document repositories. Tu i tak będzie wiele koncepcji statystycznego NLP

20 WUT TWG 2005 Obecna sytuacja (metody) WUT DMG NOV 2001 Zarówno statystyka jak i podejście gramatyczne czyste modele oparte na regułach można wzbogacić o elementy probabilistyczne (np. PCFG) metody statystyczne można wzbogacić poprzez wykorzystanie znanych reguł i źródeł twardej wiedzy (np. word sense disambiguation + słowniki + ontologie) Dodatkowo znaczenie zyskują źródła informacji nietekstowej, związane m.in. z WWW: Analiza grafów hiperpołączeń Analiza formatowania tekstu Analiza ruchu w sieci Internet...


Pobierz ppt "WUT TWG 2005 WEDT Wprowadzenie do eksploracji danych tekstowych w środowisku WWW Piotr Gawrysiak Politechnika Warszawska Zakład."

Podobne prezentacje


Reklamy Google