Sztuczna Inteligencja Analiza języka naturalnego Najnowsze osiągnięcia Włodzisław Duch Katedra Informatyki Stosowanej UMK Google: Duch.

Slides:



Advertisements
Podobne prezentacje
Jak utkać swoją własną sieć? Dominika Miernik i Dorota Szczerbak
Advertisements

Włodzisław Duch Katedra Informatyki Stosowanej,
Sztuczna Inteligencja Analiza języka naturalnego Najnowsze osiągnięcia
Rafał Hryniów Tomasz Pieciukiewicz
Sztuczna Inteligencja Reprezentacja wiedzy I Logika przybliżona
Logiki (nie)klasyczne
Sztuczna Inteligencja Reprezentacja wiedzy I Logika przybliżona
Sztuczna Inteligencja Reprezentacja wiedzy II
Sztuczna Inteligencja Reprezentacja wiedzy II Ramy i inne Włodzisław Duch Katedra Informatyki Stosowanej UMK Google: Duch.
Sztuczna Inteligencja Analiza języka naturalnego Tłumaczenie maszynowe
Sztuczna Inteligencja Reprezentacja wiedzy II Systemy produkcyjne Włodzisław Duch Katedra Informatyki Stosowanej UMK Google: W. Duch.
Sztuczna Inteligencja Reprezentacja wiedzy I Wstęp. Włodzisław Duch Katedra Informatyki Stosowanej UMK Google: W. Duch.
Zastosowanie pamięci semantycznej we wspomaganiu decyzji medycznych
Pamięć semantyczna Część pamięci długotrwałej, w której przechowuje się podstawowe znaczenie słów i pojęć.
Życiorys mgr inż. Julian Szymański Katedra Architektury Systemów Komputerowych WETI PG Urodzony: r. Wykształcenie: studia na wydziale.
LIWC2001 Linguistic Inquiry and Word Count () LIWC2001 Linguistic Inquiry and Word Count (James W. Pennebaker Martha E. Francis & Roger J Booth;
Google – sposoby wyszukiwania
-Witam nazywam się Weronika Zgorzelska oraz Oliwia Kołakowska. -Witam serdecznie 1.Od kiedy pan gra w FC Barcelonie… -W FC Barcelonie gram od 13 roku.
GRAMATYKA Zastosowanie czasowników SHOULD i OUGHT TO.
Zestawienie wyników badań Researches summary. 1. Czy Twoi rodzice uprawiają jakieś sporty lub w inny aktywny sposób spędzają wolny czas poświęcając im.
Bibliotekarz – odkrywca. Agenda Proces tworzenia informacji Indeksy wyszukiwawcze Budowa rekordu w Promaxie Zapytania.
Strategia skutecznego szukania informacji w Internecie
Autor:Ada Turek klasa 6a SP 6 w Sosnowcu
Język angielski czasy PRESENT Continuous NACIŚNIJ SPACJĘ
Present Simple vs. Present Continuous
Język angielski czasy PRESENT SIMPLE NACIŚNIJ SPACJĘ Zdiełał piotrp 
Szkoła Podstawowa im. Adama Mickiewicza w Skalmierzycach
Egzamin maturalny ustny z języka obcego obowiązujący od roku szkolnego 2011/2012 Prezentacja przygotowana na podstawie informacji zawartych w informatorze.
Author: Welcome to London's history and culture.
Mini Słownik popularnych zwrotów
Second Conditional.
Techniki efektywnego uczenia – ćwiczenia cd. zajęć 3 Zajęcia 5
XML – eXtensible Markup Language
Present continuous tense
Music: Nightengale Serenade
SZKOŁA Z KLASĄ 2.0 English SOS.
CZAS PAST SIMPLE.
Zasady pisania listu nieformalnego

SHOPPING- ROBIENIE ZAKUPÓW.
 Primary School no 17  John Paul II, Chorzow, Poland  Made by Monika Winkler`s Project Group.
Zmiany w ustnym egzaminie maturalnym z języków obcych od 2012 roku
Modelowanie Kognitywne
Much, many, a lot of, some,any
POLISH LANGUAGE COURSE Lesson 1 Greetings and introducing yourself.
CROSSWORD: SLANG. Konkurs polega na rozwiązaniu krzyżówki. CROSSWORD: SLANG Wypełnione karty odpowiedzi prosimy składać w bibliotece CJK, lub przesyłać.
Les meilleures photos de L'année 2005 D'après NBC A life for two, full of tenderness, obtains happiness as they get closer to heaven. Życie we dwoje,
Automatyczna interpretacja pytań i udzielanie odpowiedzi (Question & Answering)
You are about to see a few sentences in Polish. Try to translate them into English, but keep in mind they are: The First Conditonal The Second Conditional.
PLANET TIMES Czasy: -„be” Present Simple - Present Simple
Przetłumacz podane w nawiasach fragmenty zdań na j. angielski.
Przeczytaj uważnie polecenie Kliknij raz a pojawi się zadanie do wykonania Kliknij drugi raz i zobaczysz rozwiązanie Nie sprawdzaj rozwiązania, zanim się.
Katarzyna Kowalczyk i Grzegorz Kasprzyk
My Family Writing. Napisz list do przyjaciela z Anglii, w którym przedstawisz swoją rodzinę. Napisz jak się nazywają i czym się zajmują. Napisz jak wyglądają.
Socjosemiotyczna teoria uczenia się jezyka Hallidaya (1975) W systemie językowy dorosłych istnieją trzy warstwy (systemy): semantyczny; leksykogramatyczny.
Struktura egzaminu ustnego z języków obcych (bez określania poziomu) ZadanieCzasPunktacja Rozmowa wstępnaok. 2 minut Zadanie.
Www,mojesilnedrzewo.pl. W dniach 15 marca – 30 kwietnia 2010.r.wytwórnia wody mineralnej Żywiec Zdrój SA wspólnie z Fundacją Nasza Ziemia i Regionalną.
Music: Nightengale Serenade
Music: Nightengale Serenade
CZAS PRESENT CONTINUOUS
SafeSurfing Moduł 1 Jak bezpiecznie korzystać z internetu i jak chronić swoje dane osobowe?
Sztuczna Inteligencja Analiza języka naturalnego Najnowsze osiągnięcia
Sztuczna Inteligencja Analiza języka naturalnego Najnowsze osiągnięcia
Włodzisław Duch Katedra Informatyki Stosowanej,
Sztuczna Inteligencja Gry i programy oparte na szukaniu
Sztuczna Inteligencja Analiza języka naturalnego Najnowsze osiągnięcia
Egzamin ósmoklasisty z języka angielskiego
Sztuczna Inteligencja Analiza języka naturalnego Najnowsze osiągnięcia
zl
1) What is Linux 2) Founder and mascot of linux 3) Why Torvalds created linux ? 4) System advantages and disadvantages 5) Linux distributions 6) Basic.
Zapis prezentacji:

Sztuczna Inteligencja Analiza języka naturalnego Najnowsze osiągnięcia Włodzisław Duch Katedra Informatyki Stosowanej UMK Google: Duch

Nagroda Loebnera Przyznawana od 1994 roku, ograniczony test Turinga, jeśli 30% sędziów uzna za człowieka 25 K$ nagrody dla audio-wizualnej interakcji 100 K$ Sędziowie mają >15 minut na konwersację Ocena programów i ludzi, na ile sztuczny/prawdziwy w skali Tylko 10% sędziów się myli (2000). Oryginalna gra w udawanie Turinga odbyła się 4/2005.

Przykład konwersacji PROGRAM: Hello. My name is Albert. Who are you? JUDGE002: Greetings, I'm judge 2 PROGRAM: I'm not sure what to talk about with you. Are you a girl or a boy? JUDGE002: girl. how are you? PROGRAM: Are you married? I'm doing just fine, thanks. JUDGE002: would you like to talk about somethng interesting? PROGRAM: MP is an abbreviation for Member of Parliament. JUDGE002: right, why did you say that? PROGRAM: I just felt like it. JUDGE002: okay, did you hit a wrong button? PROGRAM: Do you come from around here? JUDGE002: yes, do you? PROGRAM: No I don't.

Przykład cd. J002: where do you come from PROGRAM: I am from Earth. J002: well that's very specific indeed. what are your interests> PROGRAM: Would you like to have a drink with me later? let's not get too personal. J002: what do you work as? P. I've worked on a lot of PC's and some mini computers and mainframes when I was in college. W 1994 roku tematami były koty i psy, kriogenika, Rolling Stones, proces O.J. Simpsona, zwyciężył program dyskutujący o seksie! Zawody w 1998 roku w Sydney nie miały ograniczeń tematu konwersacji. Programy często przejmują inicjatywę, co ułatwia oszukanie sędziego. Oceny: 1 – najbardziej ludzki, 10 – najmniej ludzki.

Wyniki 2000 Program Alice oszukał sędziego 1 i 2.

Wyniki 2004 W 2000 roku najsłabszy człowiek był lepszy od najlepszego programu 3.3 razy, w 2004 już tylko 1.9 razy. Postęp?

Wyniki 2006 University College London, Judge: Do you know any good jokes? Joan: I dont even know any bad ones. I just cant remember them for very long. Judge: Tell me a joke. Joan: Sorry, Im not very good at telling jokes. Judge: Please tell a joke. Joan: What do you get if you walk under a cow? Judge: I dont know? Joan: A pat on the head. Judge: Thats very good. Joan: I know.

Generacja tekstu Brutus - program tworzący opowiadania na zadany temat, np. zdanie: Jerzy obudził się pewnego ranka z koszmarnym uczuciem, że stał się wielkim insektem. Historie dziwaczne, a przez to interesujące, np. porównania: Oczy Harta były jak wielkie, krwawiące słońca. Użyto w nim LAG: Literary augumented grammars, co umożliwia formalizację takich pojęć jak zdrada: nadaje się do scenariuszy TV! Inne programy: cyberpoeta,

Mexica Mexica (Rafael Pérez y Pérez), zwyciężył w 2006 roku w komputerowo generowanych historiach. Reprezentuje w pamięci długotrwałej fakty i stare historie (sekwencje postaci-akcji), ma też reprezentacje informacji o emocjach. Program tworzy nowe historie oceniając różnice ze znanymi historiami i napięcia dramatyczne oceniane na podstawie informacji o emocjach. Ograniczenia na strukturę historii: kontekstowe, wiedzy, wskazówki kompozycyjne (nowość, zainteresowanie), wiarygodność. Przykładowa historyjka: At the Sunday market, a farmer tries to kill jaguar knight [The knight hates the farmer]. In response, the knight thrashes the farmer [The knight hates the farmer. The farmer also hates the knight]. In that moment, the princess arrives to the market and sees the knight beating the farmer...

Szukanie semantyczne Jak zrozumieć sens informacji i wyszukać dokładnie to, o co chodzi pytającemu? W ramach projektów bibliotek cyfrowych (digital libraries) powstały projekty InterSpace, MedSpace, zastosowania przestrzeni koncepcji do określenia sensu pojęć: Słowo S => wektor kontekstowy W(S) i =p(S,S i ) w okienku kontekstowym Jeśli mamy opisy własności Słowa wieloznaczne będą miały kilka wektorów, np. W k (Rakieta). Relacje semantyczne => relacje odległości między W(S). Podobne podejście: mapy informacji tekstowych, pokazują pojęcia w otoczeniu skojarzonych z nimi pojęć. Przykłady: WebSOM, prace z Astronomy & Astrophysics.WebSOMAstronomy & Astrophysics Klasteryzacja rezultatów z wyszukiwarek: projekty Carrot2 i ClustyCarrot2Clusty

Przykład wektorów semantycznych Zwierzęta i ich własności; jak wygląda podobieństwo między nimi?

Mapy semantyczne: MDS Jeśli zminimalizować różnice pomiędzy odległościami wektorów ||W(X 1 )-W(X 2 )|| i ich odpowiedników w 2D dostaniemy taką mapę. Widać naturalne grupowanie różnych gatunków.

Nowe podejścia NLP to bardzo aktywna ale i trudna dziedzina. Sporo linków: Z. Vetulani, Komunikacja człowieka z maszyną, AOW EXIT 2004 Podstawowe narzędzia NLP: Stworzono duże korpusy do trenowania i testowania programów NLP. Programy do normalizacji tekstu szukają form podstawowych. Analiza morfologiczna rozbija wyrazy na morfemy (rdzenie, przed/po). Taggery przypisują części mowy (POS, Part of Speech), formy gramatyczne, użyteczne przy odróżnianiu czy mamy do czynienia z nazwą rzeczą, przymiotnikiem czy czasownikiem (shallow parsing). Gramatyki probabilistyczne, rozkład oparty o statystykę danych, gramatyki połączeń, kodujące sposoby używania (relacje) słów:

Systemy hybrydowe DISCERN - system NLP z neuronowym leksykonem. Problem: jak automatycznie uczyć się skojarzeń? Jak reprezentowane są symbole w naszych mózgach? Za pomocą połączonych grup neuronów tworzących podsieci reprezentujące brzmienie i znaczenie, łączące percepcję i działanie. Podejście hybrydowe: symbole do analizy gramatycznej, neurony do rozproszonej reprezentacji informacji. Słyszymy wibracje, widzimy kreski, to kojarzymy z koncepcją. DISCERN używa kilku map automatyczne tworząc skojarzenia na poziomie fonologicznym, ortograficznym i semantycznym dzięki rozproszonej reprezentacji wiedzy.kilku map W DISCERN zastosowano hierarchiczne sieci SOM, ale można by też stosować reprezentację wektorową. Analiza gramatyczna – jeszcze zbyt trudna dla modeli neuronowych? Niestety projekt przestał się rozwijać.

Czego brakuje w NLP? Porównajmy NLP z ludzkimi kompetencjami w tej dziedzinie. Człowiek ma pamięć rozpoznawczą – koryguje słowa nawet jeśli są napisane z poważnymi błędami, odwołując się do zrozumienia pojęc w tekście i ogólnego sensu tekstu. Człowiek ma pamięć semantyczną – wiemy, że krowa ma ogon, rogi, daje mleko, jest duża, muczy... nie da się tego znaleźć w słownikach! Definicja krowy (Wordnet): dojrzała samica ssaka, którego samiec nazywa się byk. Brakuje wiedzy! Projekty stworzenia słowników z licznymi relacjami, np. Wordnet, zmierzają w kierunku pamięci semantycznej, ale są na razie ubogie.Wordnet Próby automatycznej akwizycji wiedzy są bardzo trudne.

Mówiąca głowa Zapamiętywanie Zastosowania, np. gra w 20 pytań Pytanie Pamięć semantyczna Parser Oznaczanie części mowy i ekstrakcja fraz Słowniki, encyklopedie poprawki weryfikacja

Rozumienie tekstów Próbujemy rozwinąć neurokognitywne podejście do rozumienia języka w oparciu o koncepcję grafów spójnych koncepcji, aktywnej części pamięci semantycznej z hamowaniem i rozchodzeniem się aktywacji. Dla tekstów medycznych mamy >2 mln koncepcji, 15 mln relacji …

Generator zagadek Mając dobrą pamięć semantyczną i uproszczoną reprezentację wiedzy można tworzyć dowolną liczbę zagadek! Wystarczy znaleźć kilka cech, które unikalnie charakteryzują daną koncepcję. W tym celu z pamięci semantycznej wystarczy zostawić tylko jedną relację: tak/nie. Przykład automatycznie wygenerowanych zagadek: Ma powab, spin i ładunek. Co to jest? Jest pomarańczowy, ma czarne plamki, jest płazem. Co to za zwierz? Salamandra. Zapytajcie Google! Strona o kwarkach będzie na początku …