WEDT Teoria informacji

Slides:



Advertisements
Podobne prezentacje
Leszek Smolarek Akademia Morska w Gdyni 2005/2006
Advertisements

Funkcje tworzące są wygodnym narzędziem przy badaniu zmiennych losowych o wartościach całkowitych nieujemnych. Funkcje tworzące pierwszy raz badał de.
WEDT Rachunek prawdopodobieństwa, teoria informacji, lingwistyka
DYSKRETYZACJA SYGNAŁU
Rachunek prawdopodobieństwa 2
Metody identyfikacji i lokalizacji sekwencji kodujących w genomie
dr A Kwiatkowska Instytut Informatyki
Badania operacyjne. Wykład 2
Michał Łasiński Paweł Witkowski
Czyli czym się różni bit od qubitu
Statystyka w doświadczalnictwie
Rozpoznawanie Twarzy i Systemy Biometryczne, 2005/2006
Niepewności przypadkowe
Wykład 3 Wzór Bayesa, cd.: Wpływ rozkładu a priori.
Elementy Rachunku Prawdopodobieństwa c.d.
Wprowadzenie Sformułowanie problemu Typy reguł asocjacyjnych
Program przedmiotu “Metody statystyczne w chemii”
Zapis informacji Dr Anna Kwiatkowska.
Metody Symulacyjne w Telekomunikacji (MEST) Wykład 4: Generowanie zdarzeń  Dr inż. Halina Tarasiuk p. 337, tnt.tele.pw.edu.pl.
AWK Zastosowania Informatyki Wykład 1 Copyright, 2003 © Adam Czajka.
Kod Graya.
Podstawy programowania
Język angielski czasy PRESENT Continuous NACIŚNIJ SPACJĘ
Podstawy programowania II
Układy kombinacyjne cz.2
Elementy Rachunku Prawdopodobieństwa i Statystyki
Elementy Rachunku Prawdopodobieństwa i Statystyki
Funkcje w Pascalu Przypomnienie wiadomości o procedurach Prowadzący: Anna Kaleta Piotr Chojnacki.
Elementy Rachunku Prawdopodobieństwa i Statystyki
Funkcje logiczne i ich realizacja. Algebra Boole’a
Elementy Rachunku Prawdopodobieństwa i Statystyki
Cyfrowe układy logiczne
Elementy Rachunku Prawdopodobieństwa i Statystyki
Języki i automaty część 3.
XML – eXtensible Markup Language
Elżbieta Fiedziukiewicz
Systemy kolejkowe - twierdzenie Little’a
Wykład 3 Piotr Gawrysiak
Planowanie badań i analiza wyników
IV EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja
Henryk Rusinowski, Marcin Plis
Treści multimedialne - kodowanie, przetwarzanie, prezentacja Odtwarzanie treści multimedialnych Andrzej Majkowski.
WYKŁAD 3 Temat: Arytmetyka binarna 1. Arytmetyka binarna 1.1. Nadmiar
Zagadnienia AI wykład 2.
JĘZYKI ASSEMBLEROWE ..:: PROJEKT ::..
Metody matematyczne w inżynierii chemicznej
Wykład 5 Przedziały ufności
Kompresja danych Instytut Informatyki UWr Studia dzienne Wykład nr 3: kody Golomba, kody Tunstalla.
Warstwowe sieci jednokierunkowe – perceptrony wielowarstwowe
K ODY ZMIENNEJ DŁUGOŚCI Alfabet Morsa Kody Huffmana.
Średnia energia Średnia wartość dowolnej wielkości A wyraża się W przypadku rozkładu kanonicznego, szczególnie zwartą postać ma wzór na średnią wartość.
BAZY DANYCH Microsoft Access Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej Katedra Automatyki i.
K URS JĘZYKA C++ – WYKŁAD 14 ( ) Narzędzia programistyczne w STL.
Wstęp do programowania Wykład 2 Dane, instrukcje, program.
P ASCAL Definicje, deklaracje, podstawowe instrukcje 1.
Etapy procesu sterowania rozmytego
Telekomunikacja Bezprzewodowa (ćwiczenia - zajęcia 10,11)
Podstawowe rodzaje modeli rozmytych
Wybór nazwy lub słów kluczowych dla interesującego nas szeregu czasowego. Opcjonalnie – ustawienie innych dostępnych atrybutów szukania.
Przetwarzanie języka Wprowadzenie do informatyki Jerzy Nawrocki
Wstęp do Informatyki - Wykład 6
Wstęp do Informatyki - Wykład 4
Jednorównaniowy model regresji liniowej
Układy asynchroniczne
Metody sztucznej inteligencji
Sterowanie procesami ciągłymi
ALGORYTMY I STRUKTURY DANYCH
Haskell Składnia funkcji.
Egzamin ósmoklasisty z języka angielskiego
Zapis prezentacji:

WEDT Teoria informacji Wykład 3 Piotr Gawrysiak pgawrysiak@supermedia.pl 2005

Projekt Dwie grupy studentów 1) Jabłonka – Marcinkowska 1) Piotr Gawrysiak – pgawrysiak@supermedia.pl 2) Piotr Andruszkiewicz - P.Andruszkiewicz@elka.pw.edu.pl 1) Jabłonka – Marcinkowska 2) Mierzejewski - Zyśk Etapy: I wybór tematu – 1 tydzień / propozycja tematu II projekt wstępny – 4 tygodnie / wstępna analiza teoretyczna III implementacja – ost. termin / pełna dokumentacja Ostateczny termin oddania projektu – ostatnie zajęcia (jeśli jednak ktoś chce być zwolniony z egzaminu, musi oczywiście oddać projekt wcześniej, czas sprawdzania Zgłoszenie pełnej dokumentacji na konferencję jest dodatkowo premiowane ;-) Uważano że im większa szybkość transmisji tym większe prawdopodobieństwo pojawienia się błędów, ale – zgodnie z teorią Shannona, jeśli przesyłamy dane z szybkością mniejszą niż pojemność kanału, to możemy zapewnić dowolnie małe prawdopodobieństwo pojawienia się błędu

Teoria informacji Opracowana przez Shannona w latach 40-tych XX w. Określenie ilości informacji możliwej do przesłania przez nieidealny /„zaszumiony” – „noisy channel”/ kanał komunikacyjny Określenie maksymalnych wartości: Szybkości transmisji (pojemność kanału) Stopnia kompresji danych (entropia) Możliwe jest zapewnienie dowolnie małego prawdopodobieństwa wystąpienia błędu transmisji pod warunkiem zastosowania odpowiednio niewielkiej szybkości transmisji i stopnia kompresji Uważano że im większa szybkość transmisji tym większe prawdopodobieństwo pojawienia się błędów, ale – zgodnie z teorią Shannona, jeśli przesyłamy dane z szybkością mniejszą niż pojemność kanału, to możemy zapewnić dowolnie małe prawdopodobieństwo pojawienia się błędu

Entropia Entropia – miara chaosu, stopnia nieuporządkowania Fizyka – entropia układu rośnie, lub pozostaje stała, jeśli nie zostanie dostarczona energia Miara niepewności: Niska entropia – wysoka pewność, przewidywalność Wysoka entropia – niska pewność, ale także ilość informacji jaką możemy uzyskać przeprowadzając eksperyment Miara ilości informacji Uważano że im większa szybkość transmisji tym większe prawdopodobieństwo pojawienia się błędów, ale – zgodnie z teorią Shannona, jeśli przesyłamy dane z szybkością mniejszą niż pojemność kanału, to możemy zapewnić dowolnie małe prawdopodobieństwo pojawienia się błędu

Entropia X: dyskretna zmienna losowa pmf p(X) – rozkład zmiennej X 0 log 0 = 0 Jednostka – bity (stąd log2) Entropia określa ilość informacji w zmiennej losowej: średnia długość słowa potrzebnego do przekazania wartości tej zmiennej przy użyciu optymalnego kodowania Notacja – H(X) = Hp(X) = H(p) = HX(p) = H(pX) Uważano że im większa szybkość transmisji tym większe prawdopodobieństwo pojawienia się błędów, ale – zgodnie z teorią Shannona, jeśli przesyłamy dane z szybkością mniejszą niż pojemność kanału, to możemy zapewnić dowolnie małe prawdopodobieństwo pojawienia się błędu Entropia – średnia „niepewność” zmiennej losowej

Entropia Przykład: rzucamy 8-ścienną kostką i przekazujemy wynik 1=001, 2=010, ... Uważano że im większa szybkość transmisji tym większe prawdopodobieństwo pojawienia się błędów, ale – zgodnie z teorią Shannona, jeśli przesyłamy dane z szybkością mniejszą niż pojemność kanału, to możemy zapewnić dowolnie małe prawdopodobieństwo pojawienia się błędu Entropia – średnia „niepewność” zmiennej losowej Średnia ważona prawdopodobieństwem wystąpień wartości x Wartość oczekiwana

Entropia Przykład: jakiś język polinezyjski p t k a i u 1/8 1/4 p t k Entropia (przesłanie jednej litery): Kodowanie liter (dla częściej występujących liter używamy mniejszej liczby bitów) p t k a i u 1/8 1/4 Uważano że im większa szybkość transmisji tym większe prawdopodobieństwo pojawienia się błędów, ale – zgodnie z teorią Shannona, jeśli przesyłamy dane z szybkością mniejszą niż pojemność kanału, to możemy zapewnić dowolnie małe prawdopodobieństwo pojawienia się błędu Entropia – średnia „niepewność” zmiennej losowej Języki polinezyjskie mają zwykle małą liczbę liter Kod dla języka polinezyjskiego jest jednoznaczny – kody „długie” zaczynają się od 1, krótkie od 0 p t k a i u 100 00 101 01 110 111

Czyli gdy nie ma niepewności Entropia Inne interpretacje: Liczba pytań niezbędnych do odgadnięcia przekazu – wielkość przestrzeni poszukiwań /search space/ Czyli gdy nie ma niepewności Uważano że im większa szybkość transmisji tym większe prawdopodobieństwo pojawienia się błędów, ale – zgodnie z teorią Shannona, jeśli przesyłamy dane z szybkością mniejszą niż pojemność kanału, to możemy zapewnić dowolnie małe prawdopodobieństwo pojawienia się błędu Entropia – średnia „niepewność” zmiennej losowej Języki polinezyjskie mają zwykle małą liczbę liter Kod dla języka polinezyjskiego jest jednoznaczny – kody „długie” zaczynają się od 1, krótkie od 0 Przykład z księgarnią – oczywiście trudno tu mówić o ułamkach bitów, to sens zaczyna mieć gdy transmitujemy informacje o kupowaniu wielu książek (albo wielokrotnym rzucaniu monetą)

Entropia łączna Podobnie jak dla prawdopodobieństw (łączne, warunkowe) Entropia łączna /joint entropy/ - dla dwóch dyskretnych zmiennych losowych X, Y, średnia długość słowa potrzebnego dla przekazanie ich wartości Uważano że im większa szybkość transmisji tym większe prawdopodobieństwo pojawienia się błędów, ale – zgodnie z teorią Shannona, jeśli przesyłamy dane z szybkością mniejszą niż pojemność kanału, to możemy zapewnić dowolnie małe prawdopodobieństwo pojawienia się błędu Entropia – średnia „niepewność” zmiennej losowej Języki polinezyjskie mają zwykle małą liczbę liter Kod dla języka polinezyjskiego jest jednoznaczny – kody „długie” zaczynają się od 1, krótkie od 0 Przykład z księgarnią – oczywiście trudno tu mówić o ułamkach bitów, to sens zaczyna mieć gdy transmitujemy informacje o kupowaniu wielu książek (albo wielokrotnym rzucaniu monetą)

Entropia warunkowa Zakładając, że odbiorca informacji zna X, entropia warunkowa określa długość słowa potrzebną, aby przekazać wartość Y Uważano że im większa szybkość transmisji tym większe prawdopodobieństwo pojawienia się błędów, ale – zgodnie z teorią Shannona, jeśli przesyłamy dane z szybkością mniejszą niż pojemność kanału, to możemy zapewnić dowolnie małe prawdopodobieństwo pojawienia się błędu Entropia – średnia „niepewność” zmiennej losowej Języki polinezyjskie mają zwykle małą liczbę liter Kod dla języka polinezyjskiego jest jednoznaczny – kody „długie” zaczynają się od 1, krótkie od 0 Przykład z księgarnią – oczywiście trudno tu mówić o ułamkach bitów, to sens zaczyna mieć gdy transmitujemy informacje o kupowaniu wielu książek (albo wielokrotnym rzucaniu monetą)

Reguła łańcuchowa dla entropii Logarytmy, więc w odróżnieniu od prawdopodobieństw reguła łańcuchowa będzie sumą składników Uważano że im większa szybkość transmisji tym większe prawdopodobieństwo pojawienia się błędów, ale – zgodnie z teorią Shannona, jeśli przesyłamy dane z szybkością mniejszą niż pojemność kanału, to możemy zapewnić dowolnie małe prawdopodobieństwo pojawienia się błędu Entropia – średnia „niepewność” zmiennej losowej Języki polinezyjskie mają zwykle małą liczbę liter Kod dla języka polinezyjskiego jest jednoznaczny – kody „długie” zaczynają się od 1, krótkie od 0 Przykład z księgarnią – oczywiście trudno tu mówić o ułamkach bitów, to sens zaczyna mieć gdy transmitujemy informacje o kupowaniu wielu książek (albo wielokrotnym rzucaniu monetą)

Przykład Nasz język polinezyjski modelowaliśmy za pomocą zmiennej losowej Załóżmy, że dodatkowe badania pozwoliły odkryć strukturę użycia sylab w tym języku: wszystkie słowa składają się z ciągów sylab złożonych ze spółgłoski (C) i samogłoski (V): p t k a 1/16 3/8 1/2 i 3/16 1/4 u 1/8 3/4 Uważano że im większa szybkość transmisji tym większe prawdopodobieństwo pojawienia się błędów, ale – zgodnie z teorią Shannona, jeśli przesyłamy dane z szybkością mniejszą niż pojemność kanału, to możemy zapewnić dowolnie małe prawdopodobieństwo pojawienia się błędu Entropia – średnia „niepewność” zmiennej losowej Języki polinezyjskie mają zwykle małą liczbę liter Kod dla języka polinezyjskiego jest jednoznaczny – kody „długie” zaczynają się od 1, krótkie od 0 Przykład z księgarnią – oczywiście trudno tu mówić o ułamkach bitów, to sens zaczyna mieć gdy transmitujemy informacje o kupowaniu wielu książek (albo wielokrotnym rzucaniu monetą)

Przykład cd. Używając reguły łańcuchowej dla obliczenia H(C,V): Uważano że im większa szybkość transmisji tym większe prawdopodobieństwo pojawienia się błędów, ale – zgodnie z teorią Shannona, jeśli przesyłamy dane z szybkością mniejszą niż pojemność kanału, to możemy zapewnić dowolnie małe prawdopodobieństwo pojawienia się błędu Entropia – średnia „niepewność” zmiennej losowej Języki polinezyjskie mają zwykle małą liczbę liter Kod dla języka polinezyjskiego jest jednoznaczny – kody „długie” zaczynają się od 1, krótkie od 0 Przykład z księgarnią – oczywiście trudno tu mówić o ułamkach bitów, to sens zaczyna mieć gdy transmitujemy informacje o kupowaniu wielu książek (albo wielokrotnym rzucaniu monetą)

Przykład cd. Entropia ciągu (znaków, wyrazów itd.) zależy od jego długości. W praktyce zatem wygodnie definiować entropię dla pojedynczych znaków – entropy rate Dla całej sylaby Uważano że im większa szybkość transmisji tym większe prawdopodobieństwo pojawienia się błędów, ale – zgodnie z teorią Shannona, jeśli przesyłamy dane z szybkością mniejszą niż pojemność kanału, to możemy zapewnić dowolnie małe prawdopodobieństwo pojawienia się błędu Entropia – średnia „niepewność” zmiennej losowej Języki polinezyjskie mają zwykle małą liczbę liter Kod dla języka polinezyjskiego jest jednoznaczny – kody „długie” zaczynają się od 1, krótkie od 0 Przykład z księgarnią – oczywiście trudno tu mówić o ułamkach bitów, to sens zaczyna mieć gdy transmitujemy informacje o kupowaniu wielu książek (albo wielokrotnym rzucaniu monetą)

Entropia języka Załóżmy, że język L jest reprezentowany przez proces stochastyczny, generujący sekwencję tokenów: L=(Xi) Uważano że im większa szybkość transmisji tym większe prawdopodobieństwo pojawienia się błędów, ale – zgodnie z teorią Shannona, jeśli przesyłamy dane z szybkością mniejszą niż pojemność kanału, to możemy zapewnić dowolnie małe prawdopodobieństwo pojawienia się błędu Entropia – średnia „niepewność” zmiennej losowej Języki polinezyjskie mają zwykle małą liczbę liter Kod dla języka polinezyjskiego jest jednoznaczny – kody „długie” zaczynają się od 1, krótkie od 0 Przykład z księgarnią – oczywiście trudno tu mówić o ułamkach bitów, to sens zaczyna mieć gdy transmitujemy informacje o kupowaniu wielu książek (albo wielokrotnym rzucaniu monetą)

Informacja wzajemna /mutual information/ Informacja o zmiennej losowej Y, którą zawiera zmienna losowa X Miara niezależności Reguła łańcuchowa ? Uważano że im większa szybkość transmisji tym większe prawdopodobieństwo pojawienia się błędów, ale – zgodnie z teorią Shannona, jeśli przesyłamy dane z szybkością mniejszą niż pojemność kanału, to możemy zapewnić dowolnie małe prawdopodobieństwo pojawienia się błędu Entropia – średnia „niepewność” zmiennej losowej Języki polinezyjskie mają zwykle małą liczbę liter Kod dla języka polinezyjskiego jest jednoznaczny – kody „długie” zaczynają się od 1, krótkie od 0 Przykład z księgarnią – oczywiście trudno tu mówić o ułamkach bitów, to sens zaczyna mieć gdy transmitujemy informacje o kupowaniu wielu książek (albo wielokrotnym rzucaniu monetą)

Informacja wzajemna cd. H(X|X)=0 stąd H(X)=H(X)-H(X|X)=I(X;X) Gdy X i Y są niezależne to: H(X|Y) = H(X) I(X;Y) = H(X)-H(X) = 0 Interpretacja MI – I(X;Y) mierzy to jak bardzo nasza wiedza o Y ułatwia (średnio) przewidywanie wartości X Mierzona w bitach Entropia – miara informacji własnej Uważano że im większa szybkość transmisji tym większe prawdopodobieństwo pojawienia się błędów, ale – zgodnie z teorią Shannona, jeśli przesyłamy dane z szybkością mniejszą niż pojemność kanału, to możemy zapewnić dowolnie małe prawdopodobieństwo pojawienia się błędu Entropia – średnia „niepewność” zmiennej losowej Języki polinezyjskie mają zwykle małą liczbę liter Kod dla języka polinezyjskiego jest jednoznaczny – kody „długie” zaczynają się od 1, krótkie od 0 Przykład z księgarnią – oczywiście trudno tu mówić o ułamkach bitów, to sens zaczyna mieć gdy transmitujemy informacje o kupowaniu wielu książek (albo wielokrotnym rzucaniu monetą)

Model zaszumionego kanału Dualizm pomiędzy kompresją, a jakością transmisji Pojemność kanału – określa maksymalną szybkość transmisji informacji Wykorzystamy pojemność kanału, gdy użyjemy kodowania X, którego rozkład maksymalizuje wartość informacji wzajemnej pomiędzy wejściem i wyjściem dla wszystkich możliwych rozkładów wejściowych p(X) Uważano że im większa szybkość transmisji tym większe prawdopodobieństwo pojawienia się błędów, ale – zgodnie z teorią Shannona, jeśli przesyłamy dane z szybkością mniejszą niż pojemność kanału, to możemy zapewnić dowolnie małe prawdopodobieństwo pojawienia się błędu Entropia – średnia „niepewność” zmiennej losowej Języki polinezyjskie mają zwykle małą liczbę liter Kod dla języka polinezyjskiego jest jednoznaczny – kody „długie” zaczynają się od 1, krótkie od 0 Przykład z księgarnią – oczywiście trudno tu mówić o ułamkach bitów, to sens zaczyna mieć gdy transmitujemy informacje o kupowaniu wielu książek (albo wielokrotnym rzucaniu monetą) Szybkość dla kanału Shannona – tak naprawdę określa ile użytecznej informacji da się przepchnąć pojedynczym bitem W X W* Y koder dekoder Kanał p(y|x) wiadomość wejście wyjście

Przykład: Symetryczny kanał binarny: I(X;Y) = H(Y)-H(Y|X)=H(Y)-H(p) Wejście X ~ {0,1} Wyjście Y -> 0->1 oraz 1->0 z prawdopodobieństwem p I(X;Y) = H(Y)-H(Y|X)=H(Y)-H(p) Gdy p=0 lub p=1 (kanał zawsze zamienia bity) C=1 Gdy p=1/2, C=0; taki kanał nie nadaje się w ogóle do transmisji danych Gdy kody dla X i Y takie same, wymagany 1 bit Uważano że im większa szybkość transmisji tym większe prawdopodobieństwo pojawienia się błędów, ale – zgodnie z teorią Shannona, jeśli przesyłamy dane z szybkością mniejszą niż pojemność kanału, to możemy zapewnić dowolnie małe prawdopodobieństwo pojawienia się błędu Entropia – średnia „niepewność” zmiennej losowej Języki polinezyjskie mają zwykle małą liczbę liter Kod dla języka polinezyjskiego jest jednoznaczny – kody „długie” zaczynają się od 1, krótkie od 0 Przykład z księgarnią – oczywiście trudno tu mówić o ułamkach bitów, to sens zaczyna mieć gdy transmitujemy informacje o kupowaniu wielu książek (albo wielokrotnym rzucaniu monetą) Szybkość dla kanału Shannona – tak naprawdę określa ile użytecznej informacji da się przepchnąć pojedynczym bitem W przykładzie z kanałem Shannona – warto przypomnnieć wykres dla księgarni, H(0.5) = 1

Zastosowanie w NLP I O dekoder Pragniemy określić najbardziej prawdopodobną wiadomość na wejściu kanału, znając zakodowane wyjście p(i) – model języka, rozkład występowania słów (lub innych sekwencji) p(o|i) – „operacja” wykonywana przez kanał I O Kanał p(o|i) dekoder Uważano że im większa szybkość transmisji tym większe prawdopodobieństwo pojawienia się błędów, ale – zgodnie z teorią Shannona, jeśli przesyłamy dane z szybkością mniejszą niż pojemność kanału, to możemy zapewnić dowolnie małe prawdopodobieństwo pojawienia się błędu Entropia – średnia „niepewność” zmiennej losowej Języki polinezyjskie mają zwykle małą liczbę liter Kod dla języka polinezyjskiego jest jednoznaczny – kody „długie” zaczynają się od 1, krótkie od 0 Przykład z księgarnią – oczywiście trudno tu mówić o ułamkach bitów, to sens zaczyna mieć gdy transmitujemy informacje o kupowaniu wielu książek (albo wielokrotnym rzucaniu monetą) Szybkość dla kanału Shannona – tak naprawdę określa ile użytecznej informacji da się przepchnąć pojedynczym bitem W przykładzie z kanałem Shannona – warto przypomnnieć wykres dla księgarni, H(0.5) = 1

Zastosowanie w NLP cd. Zastosowanie Wejście Wyjście P(i) P(o|i) Tłumaczenie automatyczne Sekwencje słów L Sekwencje słów Prawdopodobieństwo wystąpienia L wg modelu języka Model tłumaczenia OCR Skanowany tekst Tekst z błędami Prawdopodobieństwo wystąpienia tekstu w języku Model błędów OCR POS tagging Sekwencje znaczników POS (t) Sekwencje słów (w) Prawdopodobieństwo sekwencji znaczników P(w|t) Rozpoznawanie mowy Sygnał mowy Prawdopodobieństwo sekwencji słów Model akustyczny Uważano że im większa szybkość transmisji tym większe prawdopodobieństwo pojawienia się błędów, ale – zgodnie z teorią Shannona, jeśli przesyłamy dane z szybkością mniejszą niż pojemność kanału, to możemy zapewnić dowolnie małe prawdopodobieństwo pojawienia się błędu Entropia – średnia „niepewność” zmiennej losowej Języki polinezyjskie mają zwykle małą liczbę liter Kod dla języka polinezyjskiego jest jednoznaczny – kody „długie” zaczynają się od 1, krótkie od 0 Przykład z księgarnią – oczywiście trudno tu mówić o ułamkach bitów, to sens zaczyna mieć gdy transmitujemy informacje o kupowaniu wielu książek (albo wielokrotnym rzucaniu monetą) Szybkość dla kanału Shannona – tak naprawdę określa ile użytecznej informacji da się przepchnąć pojedynczym bitem W przykładzie z kanałem Shannona – warto przypomnnieć wykres dla księgarni, H(0.5) = 1

Porównywanie rozkładów Dywergencja Kullbacka-Leiblera Miara różnic pomiędzy pmf p(x), q(x) I(X;Y) = D(p(x,y)||p(x)p(y)) D(p||q)>0 oraz D(p||q)=0 wtw. p=q To nie jest miara odległości, nie spełnia warunku nierówności trójkąta, ponadto nie jest symetryczna Jeszcze jedna definicja MI – „odległość” rozkładu łącznego dwóch zmiennych od rozkładu dla zmiennych niezależnych Uważano że im większa szybkość transmisji tym większe prawdopodobieństwo pojawienia się błędów, ale – zgodnie z teorią Shannona, jeśli przesyłamy dane z szybkością mniejszą niż pojemność kanału, to możemy zapewnić dowolnie małe prawdopodobieństwo pojawienia się błędu Entropia – średnia „niepewność” zmiennej losowej Języki polinezyjskie mają zwykle małą liczbę liter Kod dla języka polinezyjskiego jest jednoznaczny – kody „długie” zaczynają się od 1, krótkie od 0 Przykład z księgarnią – oczywiście trudno tu mówić o ułamkach bitów, to sens zaczyna mieć gdy transmitujemy informacje o kupowaniu wielu książek (albo wielokrotnym rzucaniu monetą) Szybkość dla kanału Shannona – tak naprawdę określa ile użytecznej informacji da się przepchnąć pojedynczym bitem W przykładzie z kanałem Shannona – warto przypomnnieć wykres dla księgarni, H(0.5) = 1

Wyrażenia regularne /regular expressions/ Są wszędzie emacs, vi, perl, python, grep, sed, awk,... Elementy wyrażeń regularnych Ciągi znaków Kleene star Zbiór znaków, dopełnienie zbioru Kotwice Zakres Alternatywa Grupowanie

Reguły case sensitive /woodchuck/ Ciągi Zakres /[wW]oodchuck/ Woodchuck lub woodchuck Woodchuck /[abc]/ a, b lub c In uomini, in soldati /[1234567890]/ Dowolna cyfra Plenty of 7 to 5 /[A-Z]/ Wielka litera we call it „A great /[a-z]/ Mała litera my dear /[0-9]/ Dowolna cyfra Chapter 1: in

Reguły Dopełnienie Znaki opcjonalne Kleene * Zero lub więcej powtórzeń poprzedzającej sekwencji /[ab]*/ - aaaa, bbbb, abababbba, bbabaaab /[^A-Z] / Nie wielka litera Woodchuck /[e^]/ e lub ^ Look up ^ now /a^b/ Ciąg a^b Look up a^b now /woodchucks? woodchuck lub woodchucks woodchuck /colou?r/ color lub colour colour

Reguły Alternatywa i grupowanie Kotwice ^ - początek ciągu $ - koniec ciągu \b – granica słowa \B – środek słowa Kleene + Przynajmniej jedno wystąpienia sekwencji /[0-9]+/ - liczba całkowita /cat|dog/ cat lub dog cat /gupp(y|ies)/ guppy lub guppies guppy /(Column_[0-9]+_*)*/ Column 1 Column 2 itd.

Hierarchia operatorów 1. Grupowanie () 2. Liczniki * + ? {} 3. Kotwice the ^my end$ 4. Alternatywa | {n} – n wystąpień sekwencji {n,m} – od n do m wystąpień {n, } - przynajmniej n wystąpień Character escaping – np. \*, \. itd.

Przykład Znaleźć wystąpienia określnika “the”: The recent attempt by the police to retain their current rates of pay has not gathered much favor with the southern factions. Przykład - Kathy McCoy

Przykład /the/ Znaleźć wystąpienia określnika “the”: The recent attempt by the police to retain their current rates of pay has not gathered much favor with the southern factions.

Przykład /[Tt]he/ Znaleźć wystąpienia określnika “the”: The recent attempt by the police to retain their current rates of pay has not gathered much favor with the southern factions.

Przykład /\b[Tt]he\b/ Znaleźć wystąpienia określnika “the”: The recent attempt by the police to retain their current rates of pay has not gathered much favor with the southern factions. Dwa rodzaje błędów: False negatives False positives

Zastosowania w NLP Wszędzie  ELIZA: U: Men are all alike. E: IN WHAT WAY? They’re always bugging us abouy something or other. CAN YOU THINK OF A SPECIFIC EXAMPLE? Well, my boyfriend made me come here. YOUR BOYFRIEND MADE YOU COME HERE He says I’m depressed much of the time. I AM SORRY TO HEAR YOU ARE DEPRESSED Uważano że im większa szybkość transmisji tym większe prawdopodobieństwo pojawienia się błędów, ale – zgodnie z teorią Shannona, jeśli przesyłamy dane z szybkością mniejszą niż pojemność kanału, to możemy zapewnić dowolnie małe prawdopodobieństwo pojawienia się błędu Entropia – średnia „niepewność” zmiennej losowej Języki polinezyjskie mają zwykle małą liczbę liter Kod dla języka polinezyjskiego jest jednoznaczny – kody „długie” zaczynają się od 1, krótkie od 0 Przykład z księgarnią – oczywiście trudno tu mówić o ułamkach bitów, to sens zaczyna mieć gdy transmitujemy informacje o kupowaniu wielu książek (albo wielokrotnym rzucaniu monetą) Szybkość dla kanału Shannona – tak naprawdę określa ile użytecznej informacji da się przepchnąć pojedynczym bitem W przykładzie z kanałem Shannona – warto przypomnnieć wykres dla księgarni, H(0.5) = 1

ELIZA Seria następujących po sobie substytucji ciągów znaków 1 – zamiana wszystkich wystąpień my na YOUR oraz I’m na YOU ARE itd. 2 – słownik substytucji: s/.* YOU ARE (depressed|sad) .*/I AM SORRY TO HEAR YOU ARE \1/ s/.* YOU ARE (depressed|sad) .*/WHY DO YOU THINK YOU ARE\1/ s/.* all .*/IN WHAT WAY/ s/.* always .*/CAN YOU THINK OF A SPECIFIC EXAMPLE/ Do jednego ciągu może pasować więcej niż jeden wzorzec Uważano że im większa szybkość transmisji tym większe prawdopodobieństwo pojawienia się błędów, ale – zgodnie z teorią Shannona, jeśli przesyłamy dane z szybkością mniejszą niż pojemność kanału, to możemy zapewnić dowolnie małe prawdopodobieństwo pojawienia się błędu Entropia – średnia „niepewność” zmiennej losowej Języki polinezyjskie mają zwykle małą liczbę liter Kod dla języka polinezyjskiego jest jednoznaczny – kody „długie” zaczynają się od 1, krótkie od 0 Przykład z księgarnią – oczywiście trudno tu mówić o ułamkach bitów, to sens zaczyna mieć gdy transmitujemy informacje o kupowaniu wielu książek (albo wielokrotnym rzucaniu monetą) Szybkość dla kanału Shannona – tak naprawdę określa ile użytecznej informacji da się przepchnąć pojedynczym bitem W przykładzie z kanałem Shannona – warto przypomnnieć wykres dla księgarni, H(0.5) = 1