Metody Sztucznej Inteligencji w Sterowaniu 2009/2010Optymalizacja miary efektywności działania sztucznych sieci neuronowych Dr hab. inż. Kazimierz Duzinkiewicz, Katedra Inżynierii Systemów Sterowania 1 Optymalizacja miary efektywności/kryterium jakości Dodatek 2 do Wykładu 4
Metody Sztucznej Inteligencji w Sterowaniu 2009/2010Optymalizacja miary efektywności działania sztucznych sieci neuronowych Dr hab. inż. Kazimierz Duzinkiewicz, Katedra Inżynierii Systemów Sterowania 2 Przypomnienie z metod poszukiwania optimum Rozważamy funkcjonał: Poznaliśmy możliwe podejścia do określania właściwości funkcjonałów jako miar efektywności działania sieci neuronowych związane z ich ekstremami (optimami) Optymalizacja miary efektywności/kryterium jakości Omówimy wybrane metody poszukiwania tych optimów, czyli w przypadku sieci neuronowych – poszukiwaniu wartości wag i progów, które minimalizują błąd działania sieci neuronowej w procesie jej uczenia
Metody Sztucznej Inteligencji w Sterowaniu 2009/2010Optymalizacja miary efektywności działania sztucznych sieci neuronowych Dr hab. inż. Kazimierz Duzinkiewicz, Katedra Inżynierii Systemów Sterowania 3 Przypomnienie z metod poszukiwania optimum Dla znalezienia minimum funkcjonału będziemy korzystali z metod iteracyjnych Postępowanie w metodach iteracyjnych można streścić w następujących punktach: 1. proces poszukiwania rozpoczynamy w pewnym punkcie 2. poruszamy się od punktu do punktu zgodnie z ogólną formułą lub gdzie, wektor określa kierunek poszukiwania, a dodatni skalar określa długość kroku wykonywanego w kierunku
Metody Sztucznej Inteligencji w Sterowaniu 2009/2010Optymalizacja miary efektywności działania sztucznych sieci neuronowych Dr hab. inż. Kazimierz Duzinkiewicz, Katedra Inżynierii Systemów Sterowania 4 Przypomnienie z metod poszukiwania optimum Ogólny podział metod poszukiwania optimum: 1. metody poszukiwania bezpośredniego – do poszukiwania optimum wykorzystuje się tylko znajomość wartości funkcjonału w określonych punktach 2. metody pierwszego rzędu (gradientowe) – do poszukiwania optimum wykorzystuje się znajomość wartości pierwszych pochodnych funkcjonału w określonych punktach (wartości gradientu) 3. metody drugiego rzędu – do poszukiwania optimum wykorzystuje się oprócz znajomości wartości pierwszych pochodnych funkcjonału w określonych punktach (wartości gradientu), również wartości drugich pochodnych (wartości hessianu) tego funkcjonału w tych punktach
Metody Sztucznej Inteligencji w Sterowaniu 2009/2010Optymalizacja miary efektywności działania sztucznych sieci neuronowych Dr hab. inż. Kazimierz Duzinkiewicz, Katedra Inżynierii Systemów Sterowania 5 Przypomnienie z metod poszukiwania optimum Metoda gradientowa – najszybszego spadku Wykorzystując ( ) w zbliżaniu się do punktu optimum (minimum), chcielibyśmy Korzystając z rozwinięcia funkcjonału w szereg Taylora w otoczeniu punktu bieżącego dla wystarczająco małego otoczenia tego punktu możemy napisać Załóżmy, że posiadamy oszacowanie gradientu funkcjonału w punkcie bieżącym
Metody Sztucznej Inteligencji w Sterowaniu 2009/2010Optymalizacja miary efektywności działania sztucznych sieci neuronowych Dr hab. inż. Kazimierz Duzinkiewicz, Katedra Inżynierii Systemów Sterowania 6 Przypomnienie z metod poszukiwania optimum Jeżeli ma zachodzić to ma mocy musi zachodzić a to implikuje bo
Metody Sztucznej Inteligencji w Sterowaniu 2009/2010Optymalizacja miary efektywności działania sztucznych sieci neuronowych Dr hab. inż. Kazimierz Duzinkiewicz, Katedra Inżynierii Systemów Sterowania 7 Przypomnienie z metod poszukiwania optimum Kierunek spadku Dowolny wektor spełniający warunek ( ) nazywamy jest kierunkiem spadku – wartość funkcjonału zmniejszy się jeżeli wykonany zostanie wystarczająco mały krok w tym kierunku
Metody Sztucznej Inteligencji w Sterowaniu 2009/2010Optymalizacja miary efektywności działania sztucznych sieci neuronowych Dr hab. inż. Kazimierz Duzinkiewicz, Katedra Inżynierii Systemów Sterowania 8 Przypomnienie z metod poszukiwania optimum Kierunek najszybszego spadku Przemieszczając się od punktu do punktu w kierunkach najszybszego spadku postępujemy według metody najszybszego spadku W jaki sposób określić wyznaczający, przy znanym gradiencie długość kroku przemieszczenia - w sieciach neuronowych, ten współczynnik nazywany jest współczynnikiem szybkości uczenia?
Metody Sztucznej Inteligencji w Sterowaniu 2009/2010Optymalizacja miary efektywności działania sztucznych sieci neuronowych Dr hab. inż. Kazimierz Duzinkiewicz, Katedra Inżynierii Systemów Sterowania 9 Przypomnienie z metod poszukiwania optimum Długość kroku w kierunku gradientu 1. wykonać krok o takiej długości, aby w kierunku wskazanym przez gradient w punkcie osiągnąć optimum (minimum) funkcjonału - minimalizacja w kierunku 2. wybrać stałą wartość wykonywać kolejne kroki przemieszczenia z tą samą wartością lub określić regułę zmian wartości w zależności od numeru kroku stosować w kolejnych krokach zmienną, ale uprzednio określoną wartość
Metody Sztucznej Inteligencji w Sterowaniu 2009/2010Optymalizacja miary efektywności działania sztucznych sieci neuronowych Dr hab. inż. Kazimierz Duzinkiewicz, Katedra Inżynierii Systemów Sterowania 10 Przypomnienie z metod poszukiwania optimum Przykład 1: Wartość gradientu w punkcie początkowym Punkt początkowy Współczynnik szybkości uczenia
Metody Sztucznej Inteligencji w Sterowaniu 2009/2010Optymalizacja miary efektywności działania sztucznych sieci neuronowych Dr hab. inż. Kazimierz Duzinkiewicz, Katedra Inżynierii Systemów Sterowania 11 Przypomnienie z metod poszukiwania optimum Przemieszczenie do punktu itd. Kryterium zatrzymania – dla uczenia sieci neuronowych – odległość bieżącej wartości funkcjonału od wartości minimalnej - zera
Metody Sztucznej Inteligencji w Sterowaniu 2009/2010Optymalizacja miary efektywności działania sztucznych sieci neuronowych Dr hab. inż. Kazimierz Duzinkiewicz, Katedra Inżynierii Systemów Sterowania 12 Przypomnienie z metod poszukiwania optimum Ilustracja graficzna: Przemieszczenia ortogonalne do linii stałej wartości funkcjonału
Metody Sztucznej Inteligencji w Sterowaniu 2009/2010Optymalizacja miary efektywności działania sztucznych sieci neuronowych Dr hab. inż. Kazimierz Duzinkiewicz, Katedra Inżynierii Systemów Sterowania 13 Przypomnienie z metod poszukiwania optimum Przykład 2: Wartość gradientu w punkcie początkowym Punkt początkowy Współczynnik szybkości uczenia
Metody Sztucznej Inteligencji w Sterowaniu 2009/2010Optymalizacja miary efektywności działania sztucznych sieci neuronowych Dr hab. inż. Kazimierz Duzinkiewicz, Katedra Inżynierii Systemów Sterowania 14 Przypomnienie z metod poszukiwania optimum Przemieszczenie do punktu itd.
Metody Sztucznej Inteligencji w Sterowaniu 2009/2010Optymalizacja miary efektywności działania sztucznych sieci neuronowych Dr hab. inż. Kazimierz Duzinkiewicz, Katedra Inżynierii Systemów Sterowania 15 Przypomnienie z metod poszukiwania optimum Ilustracja graficzna:
Metody Sztucznej Inteligencji w Sterowaniu 2009/2010Optymalizacja miary efektywności działania sztucznych sieci neuronowych Dr hab. inż. Kazimierz Duzinkiewicz, Katedra Inżynierii Systemów Sterowania 16 Przypomnienie z metod poszukiwania optimum Przykład 1: (wpływ wartości współczynnika szybkości uczenia na przebieg minimalizacji Współczynnik szybkości uczenia Trajektoria poszukiwania minimum ma oscylacyjny charakter – zbyt duża wartość współczynnika szybkości uczenia może prowadzić do niestabilności procesu minimalizacji – niestabilności procesu uczenia
Metody Sztucznej Inteligencji w Sterowaniu 2009/2010Optymalizacja miary efektywności działania sztucznych sieci neuronowych Dr hab. inż. Kazimierz Duzinkiewicz, Katedra Inżynierii Systemów Sterowania 17 Przypomnienie z metod poszukiwania optimum Stabilność procesu minimalizacji Załóżmy, że miara efektywności działania sieci neuronowej jest formą kwadratową Zatem gradient miary efektywności działania s.s.n. dany jest Podstawiając wyrażenie na gradient do formuły przemieszczania się w punktu do punktu w metodzie najszybszego spadku i przyjmując stałą wartość współczynnika szybkości uczenia, otrzymamy Liniowy dyskretny system dynamiczny
Metody Sztucznej Inteligencji w Sterowaniu 2009/2010Optymalizacja miary efektywności działania sztucznych sieci neuronowych Dr hab. inż. Kazimierz Duzinkiewicz, Katedra Inżynierii Systemów Sterowania 18 Przypomnienie z metod poszukiwania optimum Stabilność procesu minimalizacji Liniowy dyskretny system dynamiczny będzie stabilny, wtedy i tylko wtedy, gdy wszystkie wartości własne jego macierzy stanu są co do modułu mniejsze od jedności Macierz stanu Hessian formy kwadratowej Niech i będą wartościami i wektorami własnymi hessianu formy kwadratowej Zachodzi zatem:
Metody Sztucznej Inteligencji w Sterowaniu 2009/2010Optymalizacja miary efektywności działania sztucznych sieci neuronowych Dr hab. inż. Kazimierz Duzinkiewicz, Katedra Inżynierii Systemów Sterowania 19 Przypomnienie z metod poszukiwania optimum Policzmy zatem wektory własne hessianu są również wektorami własnymi macierzy stanu a wartości własne macierzy stanu wynoszą Warunek stabilności metody najszybszego spadku Jeżeli założyć, że forma kwadratowa ma silne minimum, to wszystkie wartości własne hessianu są dodatnie i wówczas warunek stabilności
Metody Sztucznej Inteligencji w Sterowaniu 2009/2010Optymalizacja miary efektywności działania sztucznych sieci neuronowych Dr hab. inż. Kazimierz Duzinkiewicz, Katedra Inżynierii Systemów Sterowania 20 Przypomnienie z metod poszukiwania optimum Ostatecznie lub Największy stabilny współczynnik szybkości uczenia jest odwrotnie proporcjonalny do największej krzywizny formy kwadratowej Krzywizna określa jak szybko zmienia się gradient – jeżeli gradient zmienia się szybko, zbyt długi krok w kierunku ostatnio wyznaczonego gradientu może przemieścić poszukiwania do punktu w którym gradient ma wartość większą co do modułu od ostatnio wyznaczonego ale przeciwny znak, a to prowadzi do powiększania długości kroku z iteracji na iterację, czyli niestabilności algorytmu
Metody Sztucznej Inteligencji w Sterowaniu 2009/2010Optymalizacja miary efektywności działania sztucznych sieci neuronowych Dr hab. inż. Kazimierz Duzinkiewicz, Katedra Inżynierii Systemów Sterowania 21 Przykład 2: Punkt początkowy Dla rozważanej formy kwadratowej Przypomnienie z metod poszukiwania optimum
Metody Sztucznej Inteligencji w Sterowaniu 2009/2010Optymalizacja miary efektywności działania sztucznych sieci neuronowych Dr hab. inż. Kazimierz Duzinkiewicz, Katedra Inżynierii Systemów Sterowania 22 Przypomnienie z metod poszukiwania optimum
Metody Sztucznej Inteligencji w Sterowaniu 2009/2010Optymalizacja miary efektywności działania sztucznych sieci neuronowych Dr hab. inż. Kazimierz Duzinkiewicz, Katedra Inżynierii Systemów Sterowania 23 Przypomnienie z metod poszukiwania optimum