Sztuczne sieci neuronowe w doświadczeniach nad fizyką spinową w CERN Beata Pawlukiewicz Seminarium Fizyki Wysokich Energii Warszawa 05.10.2007 Plan seminarium: Eksperymenty SMC i COMPASS Detekcja procesów fuzji fotonowo-gluonowej Wyniki analiz SMC/COMPASS, w których użyto sieci neuronowych Sieci neuronowe Budowa sieci Trening sieci Przykład klasyfikacji w doświadczeniach SMC i COMPASS Przykład aproksymacji w doświadczeniu COMPASS
slajdy z prezentacji G. Brony, 08.06.07 Wyniki wybranych analiz danych doświadczalnych zebranych przez SMC, COMPASS Skoncentruje się na wynikach dotyczących polaryzacji gluonu O tym wyborze decyduje metoda użyta w analizie – użycie sieci neuronowych (po raz pierwszy przy ocenie polaryzacji gluonów przez K. Kowalik) Przypominam Państwu diagram fuzji fotonowo-gluonowej (bezpośredni pomiar polaryzacji gluonów), prezentowany na tym seminarium wiele razy – PGF jest oddziaływaniem wirtualnego fotonu z gluonem, w którym powstaje para qq Detekcję sygnału PGF prowadzimy niezależnie w dwóch kanałach: detekcja mezonów powabnych w stanie końcowym detekcja pary hadronów o wysokim pędzie poprzecznym slajdy z prezentacji G. Brony, 08.06.07 05.10.2007 B. Pawlukiewicz
z Monte-Carlo 05.10.2007 B. Pawlukiewicz Asymetria mierzona doświadczalnie człony proporcjonalne do polaryzacji gluonów i inne proporcjonalne do polaryzacji kwarków Analiza wymaga oszacowania wkładów poszczególnych procesów do badanej próbki oraz odpowiadających tym procesom asymetrie partonowe oraz tak dobrać cięcia kinemtyczne, żeby procentowy wkład fuzji był jak największy Podejście tradycyjne: cięcie na pęd poprzeczny hadronów oraz na sumę kwadratów pędów poprzecznych Analiza high p_T – ogromna statystyka (mały błąd statystyczny), silnie zależne od modelu 4. Podsumowując: obydwa kanały detekcji PGF ma swoje zalety oraz słabości, które można ulepszyć: sieci NN zostały użyte w obu analizach jako alternatywa do standardowych metod z sukcesem z Monte-Carlo 05.10.2007 B. Pawlukiewicz
G/G w kanale mezonów powabnych z Monte-Carlo Mierzona doświadczalnie asymetria liczby zdarzeń jest wprost proporcjonalna do polaryzacji gluonów. Współczynnikiem proporcjonalności jest asymetria partonowa (wielkość nie rekonstruujemy doświadczalnie i dlatego musi być oceniona z symulacji Monte Carlo) Tradycyjny sposób oceny a_ll: parametryzacja robiona w przestrzeni dwóch zmiennych kinematycznych (P_t D0 oraz z_D0) Zaleta metody: – kanał bardzo czysty, łatwy do rekonstrukcji (K-p+), ale ze względów aparaturowych i ogranicz. Się do złotego kanału mamy mocno ograniczona statystykę sygnału i duże tło kombinatoryczne (jednym z największych problemów tej analizy jest duży błąd statystyczny) slajdy z prezentacji G. Brony, 08.06.07 05.10.2007 B. Pawlukiewicz
Wyniki otrzymane przy użyciu sieci neuronowych SMC, high pT (Q2>1 GeV2), 1993-1996 Phys.Rev.D70:012002,2004 COMPASS w kanale mezonów powabnych, 2000-2004 Analiza high P_T – przy pomocy sieci NN wydobyta większy sygnał i udało się zmniejszyć błąd statystyczny średnio o 0.2 (poprawa w błędzie systematycznym minimalna) Analiza open charm – przy pomocy sieci lepiej sparametryzowano a_ll, co znalazło odbicie również w zmniejszeniu błędu statystycznego praca doktorska G. Brona 05.10.2007 B. Pawlukiewicz
Sieci neuronowe – co to jest? 1. Sieci neuronowe są metodą, która czerpie inspiracje z modelu mózgu 2. Sieci NN są alternatywą w stosunku do dobrze Państwu znanych tradycyjnych metod minimalizacji chi2 05.10.2007 B. Pawlukiewicz
Sztuczne sieci neuronowe Uproszczony model mózgu - zespół powiązanych ze sobą komórek równolegle przetwarzających informacje Neuron: oblicza sumę ważoną sygnałów wejściowych zwraca odpowiedź w postaci pojedynczego sygnału przesyła odpowiedź do kolejnych elementów Neurony tworzą warstwy http://www.mindcreators.com/NeuronBasics.htm w1 w2 w3 S NEURON Potencjał sieci kryje się w architekturze sieci (liczba neuronów!) i sile połączeń między elementami – sieć potrafi zrealizować dowolną zależność między zbiorem wejściowym a wyjściowym 05.10.2007 B. Pawlukiewicz
Pojedynczy neuron liniowy nieliniowy liczby wektor wag funkcja aktywacji E Q2 y 1 w1 x1 w0 x2 w2 S f(S) y wn xn odpowiedź neuronu pobudzenie neuronu wektor wejściowy 05.10.2007 B. Pawlukiewicz
Nieliniowe funkcje aktywacji dyskretne (signum, skok jednostkowy...) ciągłe: każda funkcja ograniczona, monotoniczna, niewielomianowa sigmoidalna (prosta postać pochodnej!) f() 05.10.2007 B. Pawlukiewicz
Neuron dyskretny x1 x2 y S xn pobudzenie neuronu w1 w2 x1 x2 xn w0 y S wn f() pobudzenie neuronu odpowiedź sieci y = (n-1)-wymiarowa hiperpłaszczyzna dzieli przestrzeń na dwie podprzestrzenie 05.10.2007 B. Pawlukiewicz
Znaczenie dodatkowej wagi neuron dyskretny x1 w1 . y w2 S x2 x2 1 W0 . . . . . c=0 . . c=1.5 . . . . . x1 . . . . . 05.10.2007 B. Pawlukiewicz
Wielowarstwowa sieć neuronów nieliniowych MLP (multi-layer perceptron) f(S) y x1 xn 1 S warstwa wejściowa warstwy ukryte warstwa wyjściowa w11 w1n w10 wji 05.10.2007 B. Pawlukiewicz
Dowolny podział przestrzeni przy użyciu neuronów dyskretnych http://nc25.troja.mff.cuni.cz/~soustruznik/talks.html 05.10.2007 B. Pawlukiewicz
Trening sieci neuronowej z nauczycielem – znamy pożądaną odpowiedź sieci dla danych wejściowych (np. z symulacji Monte Carlo) cel uczenia: otrzymanie prawidłowych odpowiedzi dla zbioru, który nie był wykorzystywany w procesie uczenia (GENERALIZACJA) metoda: minimalizacja różnicy pomiędzy oczekiwanymi a otrzymanymi odpowiedziami sieci za pomocą iteracyjnego procesu adaptacji wag 05.10.2007 B. Pawlukiewicz
Trening sieci z nauczycielem. Pierwsze kroki. przygotowanie danych wejściowych ustalona architektura sieci losowanie początkowych wag w 05.10.2007 B. Pawlukiewicz
Przygotowanie danych wejściowych f’() podział wektorów wejściowych i pożądanych odpowiedzi na podzbiory: uczący i testowy przygotowanie danych: przeskalowanie do takiego zakresu, żeby wypadkowe pobudzenie neuronu pokrywało się z zakresem, w którym pochodna funkcji aktywacji jest istotnie różna od zera eliminacja zbędnych zmiennych wygładzenie rozkładów szybkozmiennych 05.10.2007 B. Pawlukiewicz
Trening sieci z nauczycielem miara błędu sieci: Q spełnia „STOP”? KONIEC poprawa wag tak nie algorytm rozbudowy poprawa architektury 05.10.2007 B. Pawlukiewicz
Warunek zatrzymania uczenia wagi stają się stabilne błąd sieci dla zbioru uczącego przestaje maleć błąd sieci dla zbioru testowego zaczyna rosnąć w dobrych warunkach statystycznych => oba błędy przestają maleć zbiór uczący zbiór testowy liczba iteracji błąd sieci en.wikipedia.org 05.10.2007 B. Pawlukiewicz
Minimalizacja funkcji błędu szukamy takiego wektora w, dla którego Q(w) osiąga globalne minimum używamy metod gradientowych zmiana j-tej wagi w kroku (i+1) proporcjonalna do składowej gradientu: błąd j-tego neuronu z warstwy wyjściowej: a błąd neuronu z warstwy ukrytej? 05.10.2007 B. Pawlukiewicz
Algorytm wstecznej propagacji błędu idea: błąd propaguje się od warstwy ostatniej do pierwszej wystarczy wiedza o gradiencie dla warstwy późniejszej błąd m-tego neuronu warstwy ukrytej: f(S) y x1 xn 1 suma po wszystkich wyjściach neuronu ukrytego 05.10.2007 B. Pawlukiewicz
Przykładowa powierzchnia błędu prezentacja R. Suleja, seminarium IPJ, 2005 05.10.2007 B. Pawlukiewicz
prezentacja R. Suleja, seminarium IPJ, 2005 Szukanie minimum globalnego funkcji błędu – rożne algorytmy gradientowe prezentacja R. Suleja, seminarium IPJ, 2005 05.10.2007 B. Pawlukiewicz
Wady i zalety sieci neuronowej pozwala rozwiązywać problemy bez znajomości analitycznej zależności między danymi wejściowymi a oczekiwanymi wyjściami skuteczna w rozwiązywaniu problemów nieseparowalnych zdolność generalizacji różnorodność zastosowań: rozpoznawanie pisma, mowy, analizy finansowe rynku... Wady: brak dowodów zbiegania do globalnego minimum metodami gradientowymi kłopotliwe dla niedoświadczonego użytkownika, jeśli sam ustala algorytm, parametry algorytmu oraz architekturę sieci niebezpieczeństwo przetrenowania lub niedouczenia sieci 05.10.2007 B. Pawlukiewicz
Sieci użyte w analizie problemów fizycznych ze względu na funkcję aktywacji liniowe nieliniowe dyskretne ciągłe ze względu na architekturę sieci nieliniowe http://www.ire.pw.edu.pl/~rsulej/NetMaker/ jednokierunkowe rekurencyjne jednowarstwowe wielowarstwowe uczenie ze względu na rodzaj uczenia z nauczycielem bez nauczyciela z krytykiem 05.10.2007 B. Pawlukiewicz
Zadanie klasyfikacji typowe zadanie klasyfikacji: odseparowanie sygnału od tła zadanie realizuje sieć: dwie warstwy ukryte + wyjściowa sigmoidalna fakt neuronu wyjściowego jakość nauki określają dwa współczynniki: trafność (purity r) i sprawność (efficiency h) 05.10.2007 B. Pawlukiewicz
Selekcja przypadków PGF para hadronów z dużym pT, dane SMC krzywa ciągła – sygnał krzywe przerywane - tło praca doktorska K. Kowalik, IPJ 05.10.2007 B. Pawlukiewicz
Selekcja przypadków PGF para hadronów z dużym pT, dane SMC Phys.Rev.D70:012002,2004 05.10.2007 B. Pawlukiewicz
Selekcja przypadków PGF para hadronów z dużym pT, dane COMPASS-owe Meas. Sci. Technol., Vol. 18 (2007) 05.10.2007 B. Pawlukiewicz
Zadanie aproksymacji aproksymacja nieznanej zależności między zmiennymi wejściowymi a pożądanymi odpowiedziami zadanie realizuje sieć: dwie warstwy ukryte + wyjściowa liniowa fakt neuronu wyjściowego jakość aproksymacji określa współczynnik korelacji: 05.10.2007 B. Pawlukiewicz
Zadanie aproksymacji all kanał mezonów powabnych, COMPASS RNN = 0.82 DIS 2006, COMPASS, G. Mallot 05.10.2007 B. Pawlukiewicz
Podsumowanie sieci zostały użyte do zadań detekcji sygnału i estymacji nieznanej funkcji użyto sieci typu MLP trenowanych z nauczycielem w obu zastosowaniach wyniki sieci okazały się nieznacznie lepsze od wyników otrzymanych metodami tradycyjnymi analiza danych COMPASS-a z użyciem sieci (m.in. separacja PGF w kanale D0 od tła) w toku. 05.10.2007 B. Pawlukiewicz
Serdecznie dziękuję R. Sulejowi i prof. B Serdecznie dziękuję R. Sulejowi i prof. B. Badełek za pomoc w przygotowaniu tego seminarium 05.10.2007 B. Pawlukiewicz