Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

WUT TWG 2005 WEDT Teoria informacji Wykład 3 Piotr Gawrysiak 2005.

Podobne prezentacje


Prezentacja na temat: "WUT TWG 2005 WEDT Teoria informacji Wykład 3 Piotr Gawrysiak 2005."— Zapis prezentacji:

1 WUT TWG 2005 WEDT Teoria informacji Wykład 3 Piotr Gawrysiak 2005

2 WUT TWG 2005 Projekt Dwie grupy studentów 1) Piotr Gawrysiak – 2) Piotr Andruszkiewicz - 1) Jabłonka – Marcinkowska 2) Mierzejewski - Zyśk Etapy: I wybór tematu – 1 tydzień / propozycja tematu II projekt wstępny – 4 tygodnie / wstępna analiza teoretyczna III implementacja – ost. termin / pełna dokumentacja Ostateczny termin oddania projektu – ostatnie zajęcia (jeśli jednak ktoś chce być zwolniony z egzaminu, musi oczywiście oddać projekt wcześniej, czas sprawdzania Zgłoszenie pełnej dokumentacji na konferencję jest dodatkowo premiowane ;-)

3 WUT TWG 2005 Teoria informacji Opracowana przez Shannona w latach 40-tych XX w. Określenie ilości informacji możliwej do przesłania przez nieidealny /zaszumiony – noisy channel/ kanał komunikacyjny Określenie maksymalnych wartości: Szybkości transmisji (pojemność kanału) Stopnia kompresji danych (entropia) Możliwe jest zapewnienie dowolnie małego prawdopodobieństwa wystąpienia błędu transmisji pod warunkiem zastosowania odpowiednio niewielkiej szybkości transmisji i stopnia kompresji

4 WUT TWG 2005 Entropia Entropia – miara chaosu, stopnia nieuporządkowania Fizyka – entropia układu rośnie, lub pozostaje stała, jeśli nie zostanie dostarczona energia Miara niepewności: Niska entropia – wysoka pewność, przewidywalność Wysoka entropia – niska pewność, ale także ilość informacji jaką możemy uzyskać przeprowadzając eksperyment Miara ilości informacji

5 WUT TWG 2005 Entropia X: dyskretna zmienna losowa pmf p(X) – rozkład zmiennej X 0 log 0 = 0 Jednostka – bity (stąd log 2 ) Entropia określa ilość informacji w zmiennej losowej: średnia długość słowa potrzebnego do przekazania wartości tej zmiennej przy użyciu optymalnego kodowania Notacja – H(X) = H p (X) = H(p) = H X (p) = H(p X )

6 WUT TWG 2005 Entropia Przykład: rzucamy 8-ścienną kostką i przekazujemy wynik Entropia: Wartość oczekiwana Średnia ważona prawdopodobieństwem wystąpień wartości x 1=001, 2=010,...

7 WUT TWG 2005 Entropia Przykład: jakiś język polinezyjski Entropia (przesłanie jednej litery): Kodowanie liter (dla częściej występujących liter używamy mniejszej liczby bitów) ptkaiu 1/81/41/81/41/8 ptkaiu

8 WUT TWG 2005 Entropia Inne interpretacje: Liczba pytań niezbędnych do odgadnięcia przekazu – wielkość przestrzeni poszukiwań /search space/ Czyli gdy nie ma niepewności

9 WUT TWG 2005 Entropia łączna Podobnie jak dla prawdopodobieństw (łączne, warunkowe) Entropia łączna /joint entropy/ - dla dwóch dyskretnych zmiennych losowych X, Y, średnia długość słowa potrzebnego dla przekazanie ich wartości

10 WUT TWG 2005 Entropia warunkowa Zakładając, że odbiorca informacji zna X, entropia warunkowa określa długość słowa potrzebną, aby przekazać wartość Y

11 WUT TWG 2005 Reguła łańcuchowa dla entropii Logarytmy, więc w odróżnieniu od prawdopodobieństw reguła łańcuchowa będzie sumą składników

12 WUT TWG 2005 Przykład Nasz język polinezyjski modelowaliśmy za pomocą zmiennej losowej Załóżmy, że dodatkowe badania pozwoliły odkryć strukturę użycia sylab w tym języku: wszystkie słowa składają się z ciągów sylab złożonych ze spółgłoski (C) i samogłoski (V): ptk a 1/163/81/161/2 i 1/163/1601/4 u 03/161/161/4 1/83/41/8

13 WUT TWG 2005 Przykład cd. Używając reguły łańcuchowej dla obliczenia H(C,V):

14 WUT TWG 2005 Przykład cd. Entropia ciągu (znaków, wyrazów itd.) zależy od jego długości. W praktyce zatem wygodnie definiować entropię dla pojedynczych znaków – entropy rate Dla całej sylaby

15 WUT TWG 2005 Entropia języka Załóżmy, że język L jest reprezentowany przez proces stochastyczny, generujący sekwencję tokenów: L=(X i )

16 WUT TWG 2005 Informacja wzajemna /mutual information/ Informacja o zmiennej losowej Y, którą zawiera zmienna losowa X Miara niezależności Reguła łańcuchowa ?

17 WUT TWG 2005 Informacja wzajemna cd. H(X|X)=0 stąd H(X)=H(X)-H(X|X)=I(X;X) Gdy X i Y są niezależne to: H(X|Y) = H(X) I(X;Y) = H(X)-H(X) = 0 Interpretacja MI – I(X;Y) mierzy to jak bardzo nasza wiedza o Y ułatwia (średnio) przewidywanie wartości X Mierzona w bitach Entropia – miara informacji własnej

18 WUT TWG 2005 Model zaszumionego kanału Dualizm pomiędzy kompresją, a jakością transmisji Pojemność kanału – określa maksymalną szybkość transmisji informacji Wykorzystamy pojemność kanału, gdy użyjemy kodowania X, którego rozkład maksymalizuje wartość informacji wzajemnej pomiędzy wejściem i wyjściem dla wszystkich możliwych rozkładów wejściowych p(X) W XW* Y koder dekoder Kanał p(y|x) wiadomość wejście wyjście

19 WUT TWG 2005 Przykład: Symetryczny kanał binarny: Wejście X ~ {0,1} Wyjście Y -> 0->1 oraz 1->0 z prawdopodobieństwem p I(X;Y) = H(Y)-H(Y|X)=H(Y)-H(p) Gdy p=0 lub p=1 (kanał zawsze zamienia bity) C=1 Gdy p=1/2, C=0; taki kanał nie nadaje się w ogóle do transmisji danych Gdy kody dla X i Y takie same, wymagany 1 bit

20 WUT TWG 2005 Zastosowanie w NLP Pragniemy określić najbardziej prawdopodobną wiadomość na wejściu kanału, znając zakodowane wyjście p(i) – model języka, rozkład występowania słów (lub innych sekwencji) p(o|i) – operacja wykonywana przez kanał dekoder Kanał p(o|i) I O

21 WUT TWG 2005 Zastosowanie w NLP cd. ZastosowanieWejścieWyjścieP(i)P(o|i) Tłumaczenie automatyczne Sekwencje słów L Sekwencje słów Prawdopodobieństwo wystąpienia L wg modelu języka Model tłumaczenia OCRSkanowany tekst Tekst z błędami Prawdopodobieństwo wystąpienia tekstu w języku Model błędów OCR POS taggingSekwencje znaczników POS (t) Sekwencje słów (w) Prawdopodobieństwo sekwencji znaczników P(w|t) Rozpoznawani e mowy Sekwencje słów Sygnał mowy Prawdopodobieństwo sekwencji słów Model akustyczny

22 WUT TWG 2005 Porównywanie rozkładów Dywergencja Kullbacka-Leiblera Miara różnic pomiędzy pmf p(x), q(x) I(X;Y) = D(p(x,y)||p(x)p(y)) D(p||q)>0 oraz D(p||q)=0 wtw. p=q To nie jest miara odległości, nie spełnia warunku nierówności trójkąta, ponadto nie jest symetryczna Jeszcze jedna definicja MI – odległość rozkładu łącznego dwóch zmiennych od rozkładu dla zmiennych niezależnych

23 WUT TWG 2005 Wyrażenia regularne /regular expressions/ Są wszędzie emacs, vi, perl, python, grep, sed, awk,... Elementy wyrażeń regularnych Ciągi znaków Kleene star Zbiór znaków, dopełnienie zbioru Kotwice Zakres Alternatywa Grupowanie

24 WUT TWG 2005 Reguły case sensitive /woodchuck/ Ciągi Zakres /[wW]oodchuck/Woodchuck lub woodchuck Woodchuck /[abc]/a, b lub cIn uomini, in soldati /[ ]/Dowolna cyfraPlenty of 7 to 5 /[A-Z]/Wielka literawe call it A great /[a-z]/Mała literamy dear /[0-9]/Dowolna cyfraChapter 1: in

25 WUT TWG 2005 Reguły Dopełnienie Znaki opcjonalne Kleene * Zero lub więcej powtórzeń poprzedzającej sekwencji /[ab]*/ - aaaa, bbbb, abababbba, bbabaaab /[^A-Z] /Nie wielka literaWoodchuck /[e^]/e lub ^Look up ^ now /a^b/Ciąg a^bLook up a^b now /woodchucks?woodchuck lub woodchucks woodchuck /colou?r/color lub colourcolour

26 WUT TWG 2005 Reguły Alternatywa i grupowanie Kotwice ^ - początek ciągu $ - koniec ciągu \b – granica słowa \B – środek słowa Kleene + Przynajmniej jedno wystąpienia sekwencji /[0-9]+/ - liczba całkowita /cat|dog/cat lub dogcat /gupp(y|ies)/guppy lub guppiesguppy /(Column_[0-9]+_*)*/Column 1 Column 2 itd.

27 WUT TWG 2005 Hierarchia operatorów 1. Grupowanie () 2. Liczniki* + ? {} 3. Kotwicethe ^my end$ 4. Alternatywa| {n} – n wystąpień sekwencji {n,m} – od n do m wystąpień {n, } - przynajmniej n wystąpień Character escaping – np. \*, \. itd.

28 WUT TWG 2005 Przykład Znaleźć wystąpienia określnika the: The recent attempt by the police to retain their current rates of pay has not gathered much favor with the southern factions. Przykład - Kathy McCoy

29 WUT TWG 2005 Znaleźć wystąpienia określnika the: /the/ The recent attempt by the police to retain their current rates of pay has not gathered much favor with the southern factions. Przykład

30 WUT TWG 2005 Znaleźć wystąpienia określnika the: /[Tt]he/ The recent attempt by the police to retain their current rates of pay has not gathered much favor with the southern factions. Przykład

31 WUT TWG 2005 Znaleźć wystąpienia określnika the: /\b[Tt]he\b/ The recent attempt by the police to retain their current rates of pay has not gathered much favor with the southern factions. Dwa rodzaje błędów: False negatives False positives Przykład

32 WUT TWG 2005 Zastosowania w NLP Wszędzie ELIZA: U: Men are all alike. E: IN WHAT WAY? Theyre always bugging us abouy something or other. CAN YOU THINK OF A SPECIFIC EXAMPLE? Well, my boyfriend made me come here. YOUR BOYFRIEND MADE YOU COME HERE He says Im depressed much of the time. I AM SORRY TO HEAR YOU ARE DEPRESSED

33 WUT TWG 2005 ELIZA Seria następujących po sobie substytucji ciągów znaków 1 – zamiana wszystkich wystąpień my na YOUR oraz Im na YOU ARE itd. 2 – słownik substytucji: s/.* YOU ARE (depressed|sad).*/I AM SORRY TO HEAR YOU ARE \1/ s/.* YOU ARE (depressed|sad).*/WHY DO YOU THINK YOU ARE\1/ s/.* all.*/IN WHAT WAY/ s/.* always.*/CAN YOU THINK OF A SPECIFIC EXAMPLE/ Do jednego ciągu może pasować więcej niż jeden wzorzec


Pobierz ppt "WUT TWG 2005 WEDT Teoria informacji Wykład 3 Piotr Gawrysiak 2005."

Podobne prezentacje


Reklamy Google