Katedra Informatyki Stosowanej UMK

Slides:



Advertisements
Podobne prezentacje
Katedra Informatyki Stosowanej UMK
Advertisements

Inteligencja Obliczeniowa Ulepszenia MLP
Inteligencja Obliczeniowa Perceptrony o dużym marginesie błędu
Inteligencja Obliczeniowa Sieci o zmiennej strukturze.
Inteligencja Obliczeniowa Perceptrony
Metody Sztucznej Inteligencji w Sterowaniu 2009/2010 Metoda propagacji wstecznej Dr hab. inż. Kazimierz Duzinkiewicz, Katedra Inżynierii Systemów Sterowania.
formalnie: Budowa i zasada funkcjonowania sztucznych sieci neuronowych
Modelowanie i Identyfikacja 2011/2012 Metoda propagacji wstecznej Dr hab. inż. Kazimierz Duzinkiewicz, Katedra Inżynierii Systemów Sterowania 1 Warstwowe.
Metody sztucznej inteligencji – technologie rozmyte i neuronoweReguła propagacji wstecznej  Dr hab. inż. Kazimierz Duzinkiewicz, Katedra Inżynierii Systemów.
Temat 2: Podstawy programowania Algorytmy – 1 z 2 _________________________________________________________________________________________________________________.
© IEn Gdańsk 2011 Wpływ dużej generacji wiatrowej w Niemczech na pracę PSE Zachód Robert Jankowski Andrzej Kąkol Bogdan Sobczak Instytut Energetyki Oddział.
1 Mój sposób na efektywną naukę Opracowała: Agnieszka Terebus studentka V roku Akademii Pedagogiki Specjalnej w Warszawie na kierunkach: Pedagogika Zdolności.
Zasada zachowania energii
Tworzenie odwołania zewnętrznego (łącza) do zakresu komórek w innym skoroszycie Możliwości efektywnego stosowania odwołań zewnętrznych Odwołania zewnętrzne.
© Kazimierz Duzinkiewicz, dr hab. inż. Katedra Inżynierii Systemów Sterowania 1 Metody optymalizacji - Energetyka 2015/2016 Metody programowania liniowego.
MIESZACZE CZĘSTOTLIWOŚCI. Przeznaczenie – odbiorniki, nadajniki, syntezery częstotliwości Podstawowy parametr mieszacza = konduktancja (nachylenie) przemiany.
Przemiany energii w ruchu harmonicznym. Rezonans mechaniczny Wyk. Agata Niezgoda Projekt współfinansowany przez Unię Europejską w ramach Europejskiego.
Podstawowe pojęcia termodynamiki chemicznej -Układ i otoczenie, składniki otoczenia -Podział układów, fazy układu, parametry stanu układu, funkcja stanu,
EWALUACJA JAKO ISTOTNY ELEMENT PROJEKTÓW SYSTEMOWYCH Sonia Rzeczkowska.
OPTYMALNY CEL I PODSTAWY ROZWOJU SZKOŁY. PRZEDE WSZYSTKIM DZISIEJSZA SZKOŁA POWINNA PRZYGOTOWYWAĆ DO ŻYCIA W DRUGIEJ POŁOWIE XXI WIEKU.
ENERGIA to podstawowa wielkość fizyczna, opisująca zdolność danego ciała do wykonania jakiejś pracy, ruchu.fizyczna Energię w równaniach fizycznych zapisuje.
STATYSTYKA – kurs podstawowy wykład 10 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.
Algorytmy Informatyka Zakres rozszerzony
Zjawisko fotoelektryczne zewnętrzne i wewnętrzne
Czym jest gramofon DJ-ski?. Gramofon DJ-ski posiada suwak Pitch służący do płynnego przyspieszania bądź zwalniania obrotów talerza, na którym umieszcza.
Optymalna wielkość produkcji przedsiębiorstwa działającego w doskonałej konkurencji (analiza krótkookresowa) Przypomnijmy założenia modelu doskonałej.
Metoda zmiennych instrumentalnych i uogólniona metoda momentów
Metody sztucznej inteligencji - Technologie rozmyte i neuronowe 2015/2016 Perceptrony proste nieliniowe i wielowarstwowe © Kazimierz Duzinkiewicz, dr hab.
INSTYTUCJE GOSPODRKI RYNKOWEJ Jerzy Wilkin i Dominika Milczarek Wykład 1 Wiedza o instytucjach w nauczaniu ekonomii.
Obliczanie procentu danej wielkości Radosław Hołówko.
Formalnie: Pamięci asocjacyjne Dorota Cendrowska nieformalnie: (???) To miasto było na ‘K’... Na pewno na ‘K’! (???) Mam! To było Świnoujście...
Dlaczego wybraliśmy zasilacz?  Chcieliśmy wykonać urządzenia, które będzie pamiątką po naszym pobycie w gimnazjum i będzie użyteczne.  Po zastanowieniu.
Inteligencja Obliczeniowa Perceptrony o dużym marginesie błędu
Test analizy wariancji dla wielu średnich – klasyfikacja pojedyncza
Learnmatrix, Adaline, Madaline i modele liniowe
Minimalizacja automatu
Schematy blokowe.
Opracowanie wyników pomiaru
System wspomagania decyzji DSS do wyznaczania matematycznego modelu zmiennej nieobserwowalnej dr inż. Tomasz Janiczek.
MECHANIKA 2 Dynamika układu punktów materialnych Wykład Nr 9
formalnie: Sieci jednokierunkowe: architektura, uczenie, zastosowania
On-the-Fly Garbage Collection
Liczby pierwsze.
ALGORYTMY I STRUKTURY DANYCH
Podstawy automatyki I Wykład /2016
Perceptrony o dużym marginesie błędu
Katedra Informatyki Stosowanej UMK
Sieci o zmiennej strukturze
Elementy fizyki kwantowej i budowy materii
Sztuczna Inteligencja Reprezentacja wiedzy I Logika przybliżona
Wykład 7 Neuropsychologia komputerowa
PROGRAM WYKŁADU Analiza obwodów liniowych pobudzanych okresowymi przebiegami niesinusoidalnymi. Szereg Fouriera w postaci trygonometrycznej i wykładniczej.
Włodzisław Duch Katedra Informatyki Stosowanej,
Katedra Informatyki Stosowanej UMK
Własności statystyczne regresji liniowej
Sieci o zmiennej strukturze
Perceptrony o dużym marginesie błędu
Fizyczne Podstawy Teledetekcji Wykład 4
Sterowanie procesami ciągłymi
Zaskakujące decyzje Lista symptomów i chorób: C (częsta), R (Rzadka),
Implementacja rekurencji w języku Haskell
Inteligencja Obliczeniowa Perceptrony
Katedra Informatyki Stosowanej UMK
Wykład 10 Neuropsychologia komputerowa
Program na dziś Wprowadzenie Logika prezentacji i artykułu
Wykład 5 Neuropsychologia komputerowa
Inteligencja Obliczeniowa Sieci RBF.
Perceptrony wielowarstwowe, wsteczna propagacja błędów
dr Robert Kowalczyk, PWSZ Płock
Zapis prezentacji:

Katedra Informatyki Stosowanej UMK Inteligencja Obliczeniowa Perceptrony wielowarstwowe i wsteczna propagacja błędów. Wykład 10 Włodzisław Duch Katedra Informatyki Stosowanej UMK Google: W. Duch (c) 1999. Tralvex Yeap. All Rights Reserved

Co było Perceptron jednowarstwowy. Uczenie się perceptronów Nieliniowa reguła delta Adatron (c) 1999. Tralvex Yeap. All Rights Reserved

Co będzie Perceptrony wielowarstwowe. Algorytm wstecznej propagacji błędów (BP) Metody minimalizacji Ulepszenia BP Problem: perceptrony radzą sobie tylko z problemami, które są liniowo separowalne, nie można więc rozwiązać prostego zagadnienia typu XOR, a więc prawie żadnego zagadnienia w wysokowymiarowych przypadkach. (c) 1999. Tralvex Yeap. All Rights Reserved

XOR – rozwiązanie najprostsze. Najprostsze rozwiązanie, ale jak to uczyć? Co można zrobić? Najpierw utworzyć jakąś reprezentację wewnętrzną za pomocą perceptronów, ale jaką? 1 +1 0.5 -2 Założyć reprezentację wewnętrzną a priori - zgadywaną dla każdego problemu niezależnie. Zastosować konkurencyjne uczenie się bez nadzoru; użyteczne elementy same się uaktywnią, chociaż nie ma na to gwarancji. Uczyć odpowiedniej reprezentacji wewnętrznej dla danej klasy problemów – trzeba znaleźć efektywny algorytm uczenia. (c) 1999. Tralvex Yeap. All Rights Reserved

XOR z warstwą ukrytą rozwiązuje XOR (c) 1999. Tralvex Yeap. All Rights Reserved

Warstwa ukryta i granice decyzji (c) 1999. Tralvex Yeap. All Rights Reserved

Sieć MLP 2-4-1. (c) 1999. Tralvex Yeap. All Rights Reserved

MLP = Multilayer Perceptron. Perceptron 3-warstwowy z warstwą wejściową, ukrytą i wyjściową - oznaczenia. (c) 1999. Tralvex Yeap. All Rights Reserved

MLP - oznaczenia Liczba warstw M=3 Xi(l) - całkowity sygnał dochodzący do elementu i należącego do warstwy l oi(l) - sygnał wychodzący z elementu i należącego do warstwy l Wij(l) - wagi łączące element i należący do warstwy l-1 oraz element j z warstwy l Xj(l) = Si Wij(l)oi(l-1) aktywacja neuronu j w warstwie l. oj(l) = s(Xj(l)) sygnał wysyłany z tego neuronu Fi (X;W) = oi(M) funkcja realizowana przez MLP (c) 1999. Tralvex Yeap. All Rights Reserved

BP-1 Algorytm wstecznej propagacji błędów (1974, 1986) Miara błędu dla wzorca p i No wyjść Gradientowa reguła minimalizacji błędu równoważna jest regule delta. Obliczenia gradientu dla warstwy zewnętrznej: (c) 1999. Tralvex Yeap. All Rights Reserved

Funkcja błędu w 2D Problem 1D bez warstwy ukrytej. (c) 1999. Tralvex Yeap. All Rights Reserved

BP-2 Błąd „lokalny” dla warstwy M Zmiana wag w warstwie wyjściowej: Wagi łączące neuron j i neuron k w warstwie M-1: Gradient: (c) 1999. Tralvex Yeap. All Rights Reserved

BP-3 Ponieważ to gradient: a zmiana wag: Struktura wzoru dla kolejnych warstw jest taka sama. (c) 1999. Tralvex Yeap. All Rights Reserved

BP- podsumowanie Funkcja realizowana przez sieć: Inicjalizacja: przypadkowe małe wartości wag. Propagacja sygnałów od wejścia do wyjścia. Propagacja korekcji błędów wstecz: rekursywne obliczanie DWij. (c) 1999. Tralvex Yeap. All Rights Reserved

Sigmoidy Logistyczna funkcja aktywacji: Próg q, nachylenie T Pochodna ma max dla o=0.5: Błąd wyjściowego elementu: (c) 1999. Tralvex Yeap. All Rights Reserved

XOR – dynamika uczenia (c) 1999. Tralvex Yeap. All Rights Reserved

Funkcja błędu w 2D z PCA Patrząc w kierunku największej wariancji wag możemy zrobić projekcję funkcji błędu – dla XOR jest ona dość skomplikowana. Przeskalowanie kierunku c2 pokazuje więcej szczegółów. (c) 1999. Tralvex Yeap. All Rights Reserved

Własności MLP MLP jest uniwersalnym aproksymatorem: 1 warstwa – f. ciągłe 2 warstwy – f. nieciągłe (dowód via tw. Stone’a- Weierstrassa) Szybkość zbieżności z sigmoidami: O(1/n); z wielomianami O(1/n1/d) W niektórych problemach inne funkcje dają szybsza zbieżność. Parametry sieci: architektura, liczba warstw, liczba neuronów. Końcowa warstwa: perceptron. Neurony ukryte: transformacja nieliniowa do przestrzeni odwzorowań, tworząca nowe cechy za pomocą nieliniowych kombinacji. (c) 1999. Tralvex Yeap. All Rights Reserved

Przykłady zbieżności dla XOR Architektura 2-2-2, rozmyte klastry XOR. W p-ni wyjściowej w warstwie ukrytej (c) 1999. Tralvex Yeap. All Rights Reserved

Uczenie MLP Parametry uczenia: szybkość uczenia bezwładność Pozwala usunąć szybkie oscylacje, zmienia efektywną stałą uczenia: dla małych zmian wag. sposób prezentacji danych Losowa prezentacja – element stochastyczny, uczenie on-line. Ustalona kolejność. Poprawki po całej epoce – po kilku prezentacjach też warto. (c) 1999. Tralvex Yeap. All Rights Reserved

Problemy i ulepszenia. Niewłaściwie dobrana architektura sieci. Minima lokalne i plateau, wąskie „rynny”. Wpływ nowych wzorców na już nauczone – zapominanie. Szybkość uczenia – zagadnienie jest NP-trudne. Schematy adaptacji dla stałej uczenia: zwiększać h o a=const dla malejącego błędu, zmniejszać o -hb dla rosnącego błędu. Duże kroki na powierzchni gładkiej, drobne kroki na skomplikowanej. Lokalne stałe uczenia się, różne dla różnych węzłów - kosztowne. (c) 1999. Tralvex Yeap. All Rights Reserved

Ulepszenia MLP Szybsze procedury minimalizacji błędu. Modyfikacje schematu wstecznej propagacji. Unikanie minimów lokalnych – różne możliwości. Funkcje kosztu, niekoniecznie MSE. Inicjalizacja parametrów, lepszy start. Regularyzacja i zwiększenie zdolność do generalizacji sieci - wybór modelu o odpowiedniej złożoności. Sieci konstruktywistyczne/ontogeniczne, dostosowujące złożonośc do danych. Funkcje transferu, nie tylko sigmoidy. (c) 1999. Tralvex Yeap. All Rights Reserved

Co dalej? Perceptrony wielowarstwowe: ulepszenia, algorytmy konstruktywistyczne. Sieci Hopfielda Sieci Hebbowskie i modele mózgu Samoorganizacja Perceptrony wielowarstwowe (c) 1999. Tralvex Yeap. All Rights Reserved

Koniec wykładu 10 Dobranoc … (c) 1999. Tralvex Yeap. All Rights Reserved