WEDT Wprowadzenie do eksploracji danych tekstowych w środowisku WWW

WEDT Wprowadzenie do eksploracji danych tekstowych w środowisku WWW
Piotr Gawrysiak Politechnika Warszawska Zakład Systemów Informacyjnych 2005

Sprawy organizacyjne Zaliczenie: Egzamin – 60% oceny końcowej
Projekt – 40% oceny końcowej Zaliczenie projektu jest warunkiem koniecznym zaliczenia przedmiotu, ocena 5.0 z projektu zwalnia z egzaminu Dyżur: środa, 15:15 – 16:00, 302 lub 043D lub nowe pomieszczenia laboratorium BRAMA Materiały do wykładu (slajdy, ew. artykuły naukowe + software): Kontakt mailowy: W treści nagłówka proszę wpisać [WEDT]

Literatura i oprogramowanie
Chris Manning, Hinrich Schütze, „Foundations of Statistical Natural Language Processing”, MIT Press, 1999 Errata: Dan Jurafsky, James H. Martin „Speech and Language Processing”, Prentice-Hall, 2000 Errata: Mieczysław Kłopotek, „Inteligentne wyszukiwarki internetowe”, Exit, 2001 Douglas R. Hofstadter, „Gödel, Escher, Bach: an Eternal Golden Braid”, Basic Books, 1999 Python NLTK (Natural Language Toolkit) Open NLP Oprogramowanie udostępnione PW (IBM, SAS, Reuters Corpus itp.)

Plan wykładu Wprowadzenie /co to jest NLP i dlaczego jest ważne/
Wiadomości podstawowe /statystyka, teoria informacji, lingwistyka/ Źródła danych /text corpora/ Słowa i zdania /regular expressions, tokenization/ Fleksja /stemming/ Analiza statystyczna /modele dokumentów, modele języka, collocations, word sense disambiguation/ Analiza gramatyczna /HMM, POS tagging, PCFG, parsing/ Wyszukiwanie informacji Kategoryzacja i grupowanie dokumentów Streszczanie dokumentów Tłumaczenie automatyczne Analiza dokumentów hipertekstowych Web Farming, SEO (Search Engine Optimization) Teoria Zastosowania WWW

Eksplozja informacyjna
Zwiększające się znaczenie Internetu jako kanału dystrybucji informacji Minimalne koszty powielania informacji w formie elektronicznej Większość ludzkiej wiedzy zapisana jest w postaci dokumentów w języku naturalnym

Święty Graal informatyki
WUT DMG NOV 2001 Święty Graal informatyki Sztuczna Inteligencja (AI) Możliwość porozumiewania się z maszyną w języku naturalnym Test Turinga /... ale Chiński Pokój itd./ To jest zwyczajnie użyteczne! Wyszukiwarki internetowe Automatyczne tłumaczenie Speech command /Star Trek LCARS/ Tworzenie dokumentów ... Choć w zasadzie oznaczałoby koniec profesji programisty  Potrafimy liczyć znacznie szybciej niż na początku XX wieku, ale czy potrafimy szybciej czytać? Zakład pomiędzy Mitchem Kaporem i Ray Kurzweilem o $10,000 – test Turinga w 2029

NLP, NLU, NLG, ... NLP – Natural Language Processing
Właściwie wszystko, co jest związane z przetwarzaniem informacji zapisanej w języku naturalnym Inne nazwy: Computational Linguistics (CL), Human Language Technology (HLT), Natural Language Engineering (NLE) NLU – Natural Language Understanding Dosłownie „rozumienie języka naturalnego” Co to jednak znaczy „rozumienie”? Semantyka i logika Rozumienie nie zawsze okazuje się niezbędne (Chiński Pokój - znowu) NLG – Natural Language Generation To akurat jest proste (o ile nie mamy wygórowanych wymagań) Przykład: korpus – dzieła wszystkie Szekspira Trigram : What it’s that cried? The sweet! How many then shall posthumus end his miseries! Tetragram : Enter Leonato’s brother Antonio, and the rest, but seek the weary beds of people sick.

Niestety NLU jest trudne
Nawet w tak prostym języku jak angielski: Iraqi Head Seeks Arms Teacher Strikes Idle Kids Stolen Painting Found by Tree Kids Make Nutritious Snacks Obesity Study Looks for Larger Test Group Red Tape Holds Up New Bridges Man Struck by Lightning Faces Battery Charge Clinton Wins on Budget, but More Lies Ahead Hospitals Are Sued by 7 Foot Doctors W języku polskim: fleksja dowolny szyk zdania a pozostałe problemy nie znikają: „jest szybka w łóżku” A może być jeszcze gorzej: Brak reguł gramatycznych (wyjątki i wyjątki od wyjątków) Potato – potato es, tomato – tomato es, hero – hero es, photo es??? new book, flower garden, garden flower Homonimy, synonimy To book a flight, to borrow a book Struktura wypowiedzi Fred’s hat was blown by the wind. He tried to catch it.

Niestety NLU jest trudne
John stopped at the donut store on his way home from work. He thought a coffee was good every few hours. But it turned out to be too expensive there. Przykład – J. Eisner store where donuts shop? or is run by donuts? or looks like a big donut? or made of donut? or has an emptiness at its core? I stopped smoking freshman year, but John stopped at the donut store Describes where the store is? Or when he stopped? he stopped there from hunger and exhaustion, not just from work. At that moment, or habitually? /Similarly: Mozart composed music./ That’s how often he thought it? But actually, a coffee only stays good for about 10 minutes before it gets cold. Similarly: In America a woman has a baby every 15 minutes Our job is to find that woman and stop her. the particular coffee that was good every few hours? the donut store? the situation? ...a to zaledwie trzy zdania.

Jak zatem radzą sobie ludzie?
FINISHED FILES ARE RESULT OF YEARS OF SCIENTIFIC STUDY COMBINED WITH THE EXPERIENCE OF YEARS

Jak zatem radzą sobie ludzie?
THE SILLIEST MISTAKE IN IN THE WORLD

Cechy języka naturalnego
Język naturalny Nieprecyzyjny (na wszystkich poziomach) Fonetyka, morfologia: dźwięki i słowa Składnia: zdania i ich struktura Semantyka: znaczenie treści wypowiedzi Pragmatyka: znaczenie samej wypowiedzi „w świecie” Skomplikowany (nawet jeśli uznać reguły gramatyczne) Wymaga posiadania wiedzy o świecie Narzędzia Wiedza o języku Wiedza o świecie Sposób na ich połączenie Ale czasami NLU jest łatwe – czasem (rzadko...) same informacje ilościowe o tekście wystarczają Ostatnio modny trend - modele probabilistyczne P(“maison”  “house”) wysoko prawdopodobne P(“L’avocat general”  “the general avocado”) nisko

Cechy języka naturalnego
Sama znajomość gramatyki nie jest wystarczająca: Every man saw the boy with his binoculars Rozbiór zdania:

Dwa podejścia w NLP „Gramatyczne” „Statystyczne”
Język naturalny można opisać wykorzystując aparat logiki matematycznej Lingwistyka porównawcza – Jakob Grimm, Rasmus Rask Noam Chomsky – I-Language i E-language Argument „poverty of stimulus” „Statystyczne” Przekonanie, iż struktura i reguły użycia słów w języku naturalnym można odkryć, analizując rzeczywiste wypowiedzi Najlepiej analizować dużo wypowiedzi... Bardzo dużo wypowiedzi... Statystyka Pierwsze próby – Markow /łańcuchy Markowa/, Shannon /gra Shannona/

Przykład metody statystycznej
Word sense disambiguation (WSD): They put the money in the bank Potrzebny jest korpus poprawnych tekstów w języku angielskim. Na jego podstawie należy obliczyć prawdopodobieństwa: P1 – współwystępowanie <money, savings> P2 – współwystępowanie <money, river> P1 > P2 River bank? Savings bank?

Nieco historii A co z Text Mining? 1900 – początki
eksperymenty w logice matematycznej, automatyczne dowodzenie twierdzeń (to jeszcze plan Hilberta), formalna teoria języka – Tarski, Russel, Wittgenstein łańcuchy Markowa, rozwój statystyki – lingwistyka „empiryczna” (Harris, Firth) „You shall know a word by a company it keeps” – Firth Model kanału transmisyjnego (Shannon) – statystyka uznana za „niesłuszną” Chomsky, pojęcie „gramatyczności” „Every day I fire a linguist my efficiency goes up” Gramatyka symboliczna (Prolog) od 1980 – powrót do metod statystycznych Rozwój metod eksploracji danych opartych na statystyce Wpływ badań nad rozpoznawaniem mowy (IBM) A co z Text Mining?

Data Mining Data Mining is understood as a process of automatically extracting meaningful, useful, previously unknown and ultimately comprehensible information from large databases. – Piatetsky-Shapiro Association rule discovery Sequential pattern discovery Categorization Clustering Statistics (mostly regression) Visualization This information explosion is not only problem with text, but also with all other kinds of data. Here data mining comes to the rescue.

Piramida wiedzy Data Mining Poziom semantyczny Zasoby Wisdom Knowledge
Information Data Signals Zasoby

Tu i tak będzie wiele koncepcji statystycznego NLP
WUT DMG NOV 2001 Text Mining Text Mining is understood as a process of automatically extracting meaningful, useful, previously unknown and ultimately comprehensible information from textual document repositories. Text Mining = Metody Data Mining + Klasyczne NLP TM can be described as statistical method – because KDD is mostly based on statistics Tu i tak będzie wiele koncepcji statystycznego NLP

Obecna sytuacja (metody)
WUT DMG NOV 2001 Obecna sytuacja (metody) Zarówno statystyka jak i podejście „gramatyczne” „czyste” modele oparte na regułach można wzbogacić o elementy probabilistyczne (np. PCFG) metody statystyczne można wzbogacić poprzez wykorzystanie znanych reguł i źródeł „twardej” wiedzy (np. word sense disambiguation + słowniki + ontologie) Dodatkowo znaczenie zyskują źródła informacji nietekstowej, związane m.in. z WWW: Analiza grafów hiperpołączeń Analiza formatowania tekstu Analiza ruchu w sieci Internet ... TM can be described as statistical method – because KDD is mostly based on statistics

WEDT Wprowadzenie do eksploracji danych tekstowych w środowisku WWW

Podobne prezentacje

Prezentacja na temat: "WEDT Wprowadzenie do eksploracji danych tekstowych w środowisku WWW"— Zapis prezentacji:

Podobne prezentacje

О projekcie

Zwrotny adres

Wejść

Zaloguj się poprzez sieć społeczną:

WEDT Wprowadzenie do eksploracji danych tekstowych w środowisku WWW

Podobne prezentacje

Prezentacja na temat: "WEDT Wprowadzenie do eksploracji danych tekstowych w środowisku WWW"— Zapis prezentacji:

Podobne prezentacje

О projekcie

Zwrotny adres