Pobierz prezentację
Pobieranie prezentacji. Proszę czekać
OpublikowałBohater Czaiński Został zmieniony 11 lat temu
1
Sztuczne sieci neuronowe w doświadczeniach nad fizyką spinową w CERN
Beata Pawlukiewicz Seminarium Fizyki Wysokich Energii Warszawa Plan seminarium: Eksperymenty SMC i COMPASS Detekcja procesów fuzji fotonowo-gluonowej Wyniki analiz SMC/COMPASS, w których użyto sieci neuronowych Sieci neuronowe Budowa sieci Trening sieci Przykład klasyfikacji w doświadczeniach SMC i COMPASS Przykład aproksymacji w doświadczeniu COMPASS
2
slajdy z prezentacji G. Brony, 08.06.07
Wyniki wybranych analiz danych doświadczalnych zebranych przez SMC, COMPASS Skoncentruje się na wynikach dotyczących polaryzacji gluonu O tym wyborze decyduje metoda użyta w analizie – użycie sieci neuronowych (po raz pierwszy przy ocenie polaryzacji gluonów przez K. Kowalik) Przypominam Państwu diagram fuzji fotonowo-gluonowej (bezpośredni pomiar polaryzacji gluonów), prezentowany na tym seminarium wiele razy – PGF jest oddziaływaniem wirtualnego fotonu z gluonem, w którym powstaje para qq Detekcję sygnału PGF prowadzimy niezależnie w dwóch kanałach: detekcja mezonów powabnych w stanie końcowym detekcja pary hadronów o wysokim pędzie poprzecznym slajdy z prezentacji G. Brony, B. Pawlukiewicz
3
z Monte-Carlo 05.10.2007 B. Pawlukiewicz
Asymetria mierzona doświadczalnie człony proporcjonalne do polaryzacji gluonów i inne proporcjonalne do polaryzacji kwarków Analiza wymaga oszacowania wkładów poszczególnych procesów do badanej próbki oraz odpowiadających tym procesom asymetrie partonowe oraz tak dobrać cięcia kinemtyczne, żeby procentowy wkład fuzji był jak największy Podejście tradycyjne: cięcie na pęd poprzeczny hadronów oraz na sumę kwadratów pędów poprzecznych Analiza high p_T – ogromna statystyka (mały błąd statystyczny), silnie zależne od modelu 4. Podsumowując: obydwa kanały detekcji PGF ma swoje zalety oraz słabości, które można ulepszyć: sieci NN zostały użyte w obu analizach jako alternatywa do standardowych metod z sukcesem z Monte-Carlo B. Pawlukiewicz
4
G/G w kanale mezonów powabnych
z Monte-Carlo Mierzona doświadczalnie asymetria liczby zdarzeń jest wprost proporcjonalna do polaryzacji gluonów. Współczynnikiem proporcjonalności jest asymetria partonowa (wielkość nie rekonstruujemy doświadczalnie i dlatego musi być oceniona z symulacji Monte Carlo) Tradycyjny sposób oceny a_ll: parametryzacja robiona w przestrzeni dwóch zmiennych kinematycznych (P_t D0 oraz z_D0) Zaleta metody: – kanał bardzo czysty, łatwy do rekonstrukcji (K-p+), ale ze względów aparaturowych i ogranicz. Się do złotego kanału mamy mocno ograniczona statystykę sygnału i duże tło kombinatoryczne (jednym z największych problemów tej analizy jest duży błąd statystyczny) slajdy z prezentacji G. Brony, B. Pawlukiewicz
5
Wyniki otrzymane przy użyciu sieci neuronowych
SMC, high pT (Q2>1 GeV2), Phys.Rev.D70:012002,2004 COMPASS w kanale mezonów powabnych, Analiza high P_T – przy pomocy sieci NN wydobyta większy sygnał i udało się zmniejszyć błąd statystyczny średnio o 0.2 (poprawa w błędzie systematycznym minimalna) Analiza open charm – przy pomocy sieci lepiej sparametryzowano a_ll, co znalazło odbicie również w zmniejszeniu błędu statystycznego praca doktorska G. Brona B. Pawlukiewicz
6
Sieci neuronowe – co to jest?
1. Sieci neuronowe są metodą, która czerpie inspiracje z modelu mózgu 2. Sieci NN są alternatywą w stosunku do dobrze Państwu znanych tradycyjnych metod minimalizacji chi2 B. Pawlukiewicz
7
Sztuczne sieci neuronowe
Uproszczony model mózgu - zespół powiązanych ze sobą komórek równolegle przetwarzających informacje Neuron: oblicza sumę ważoną sygnałów wejściowych zwraca odpowiedź w postaci pojedynczego sygnału przesyła odpowiedź do kolejnych elementów Neurony tworzą warstwy w1 w2 w3 S NEURON Potencjał sieci kryje się w architekturze sieci (liczba neuronów!) i sile połączeń między elementami – sieć potrafi zrealizować dowolną zależność między zbiorem wejściowym a wyjściowym B. Pawlukiewicz
8
Pojedynczy neuron liniowy
nieliniowy liczby wektor wag funkcja aktywacji E Q2 y 1 w1 x1 w0 x2 w2 S f(S) y wn xn odpowiedź neuronu pobudzenie neuronu wektor wejściowy B. Pawlukiewicz
9
Nieliniowe funkcje aktywacji
dyskretne (signum, skok jednostkowy...) ciągłe: każda funkcja ograniczona, monotoniczna, niewielomianowa sigmoidalna (prosta postać pochodnej!) f() B. Pawlukiewicz
10
Neuron dyskretny x1 x2 y S xn pobudzenie neuronu
w1 w2 x1 x2 xn w0 y S wn f() pobudzenie neuronu odpowiedź sieci y = (n-1)-wymiarowa hiperpłaszczyzna dzieli przestrzeń na dwie podprzestrzenie B. Pawlukiewicz
11
Znaczenie dodatkowej wagi neuron dyskretny
x1 w1 . y w2 S x2 x2 1 W0 . . . . . c=0 . . c=1.5 . . . . . x1 . . . . . B. Pawlukiewicz
12
Wielowarstwowa sieć neuronów nieliniowych MLP (multi-layer perceptron)
f(S) y x1 xn 1 S warstwa wejściowa warstwy ukryte warstwa wyjściowa w11 w1n w10 wji B. Pawlukiewicz
13
Dowolny podział przestrzeni przy użyciu neuronów dyskretnych
B. Pawlukiewicz
14
Trening sieci neuronowej
z nauczycielem – znamy pożądaną odpowiedź sieci dla danych wejściowych (np. z symulacji Monte Carlo) cel uczenia: otrzymanie prawidłowych odpowiedzi dla zbioru, który nie był wykorzystywany w procesie uczenia (GENERALIZACJA) metoda: minimalizacja różnicy pomiędzy oczekiwanymi a otrzymanymi odpowiedziami sieci za pomocą iteracyjnego procesu adaptacji wag B. Pawlukiewicz
15
Trening sieci z nauczycielem. Pierwsze kroki.
przygotowanie danych wejściowych ustalona architektura sieci losowanie początkowych wag w B. Pawlukiewicz
16
Przygotowanie danych wejściowych
f’() podział wektorów wejściowych i pożądanych odpowiedzi na podzbiory: uczący i testowy przygotowanie danych: przeskalowanie do takiego zakresu, żeby wypadkowe pobudzenie neuronu pokrywało się z zakresem, w którym pochodna funkcji aktywacji jest istotnie różna od zera eliminacja zbędnych zmiennych wygładzenie rozkładów szybkozmiennych B. Pawlukiewicz
17
Trening sieci z nauczycielem
miara błędu sieci: Q spełnia „STOP”? KONIEC poprawa wag tak nie algorytm rozbudowy poprawa architektury B. Pawlukiewicz
18
Warunek zatrzymania uczenia
wagi stają się stabilne błąd sieci dla zbioru uczącego przestaje maleć błąd sieci dla zbioru testowego zaczyna rosnąć w dobrych warunkach statystycznych => oba błędy przestają maleć zbiór uczący zbiór testowy liczba iteracji błąd sieci en.wikipedia.org B. Pawlukiewicz
19
Minimalizacja funkcji błędu
szukamy takiego wektora w, dla którego Q(w) osiąga globalne minimum używamy metod gradientowych zmiana j-tej wagi w kroku (i+1) proporcjonalna do składowej gradientu: błąd j-tego neuronu z warstwy wyjściowej: a błąd neuronu z warstwy ukrytej? B. Pawlukiewicz
20
Algorytm wstecznej propagacji błędu
idea: błąd propaguje się od warstwy ostatniej do pierwszej wystarczy wiedza o gradiencie dla warstwy późniejszej błąd m-tego neuronu warstwy ukrytej: f(S) y x1 xn 1 suma po wszystkich wyjściach neuronu ukrytego B. Pawlukiewicz
21
Przykładowa powierzchnia błędu
prezentacja R. Suleja, seminarium IPJ, 2005 B. Pawlukiewicz
22
prezentacja R. Suleja, seminarium IPJ, 2005
Szukanie minimum globalnego funkcji błędu – rożne algorytmy gradientowe prezentacja R. Suleja, seminarium IPJ, 2005 B. Pawlukiewicz
23
Wady i zalety sieci neuronowej
pozwala rozwiązywać problemy bez znajomości analitycznej zależności między danymi wejściowymi a oczekiwanymi wyjściami skuteczna w rozwiązywaniu problemów nieseparowalnych zdolność generalizacji różnorodność zastosowań: rozpoznawanie pisma, mowy, analizy finansowe rynku... Wady: brak dowodów zbiegania do globalnego minimum metodami gradientowymi kłopotliwe dla niedoświadczonego użytkownika, jeśli sam ustala algorytm, parametry algorytmu oraz architekturę sieci niebezpieczeństwo przetrenowania lub niedouczenia sieci B. Pawlukiewicz
24
Sieci użyte w analizie problemów fizycznych
ze względu na funkcję aktywacji liniowe nieliniowe dyskretne ciągłe ze względu na architekturę sieci nieliniowe jednokierunkowe rekurencyjne jednowarstwowe wielowarstwowe uczenie ze względu na rodzaj uczenia z nauczycielem bez nauczyciela z krytykiem B. Pawlukiewicz
25
Zadanie klasyfikacji typowe zadanie klasyfikacji:
odseparowanie sygnału od tła zadanie realizuje sieć: dwie warstwy ukryte + wyjściowa sigmoidalna fakt neuronu wyjściowego jakość nauki określają dwa współczynniki: trafność (purity r) i sprawność (efficiency h) B. Pawlukiewicz
26
Selekcja przypadków PGF para hadronów z dużym pT, dane SMC
krzywa ciągła – sygnał krzywe przerywane - tło praca doktorska K. Kowalik, IPJ B. Pawlukiewicz
27
Selekcja przypadków PGF para hadronów z dużym pT, dane SMC
Phys.Rev.D70:012002,2004 B. Pawlukiewicz
28
Selekcja przypadków PGF para hadronów z dużym pT, dane COMPASS-owe
Meas. Sci. Technol., Vol. 18 (2007) B. Pawlukiewicz
29
Zadanie aproksymacji aproksymacja nieznanej zależności między zmiennymi wejściowymi a pożądanymi odpowiedziami zadanie realizuje sieć: dwie warstwy ukryte + wyjściowa liniowa fakt neuronu wyjściowego jakość aproksymacji określa współczynnik korelacji: B. Pawlukiewicz
30
Zadanie aproksymacji all kanał mezonów powabnych, COMPASS
RNN = 0.82 DIS 2006, COMPASS, G. Mallot B. Pawlukiewicz
31
Podsumowanie sieci zostały użyte do zadań detekcji sygnału i estymacji nieznanej funkcji użyto sieci typu MLP trenowanych z nauczycielem w obu zastosowaniach wyniki sieci okazały się nieznacznie lepsze od wyników otrzymanych metodami tradycyjnymi analiza danych COMPASS-a z użyciem sieci (m.in. separacja PGF w kanale D0 od tła) w toku. B. Pawlukiewicz
32
Serdecznie dziękuję R. Sulejowi i prof. B
Serdecznie dziękuję R. Sulejowi i prof. B. Badełek za pomoc w przygotowaniu tego seminarium B. Pawlukiewicz
Podobne prezentacje
© 2024 SlidePlayer.pl Inc.
All rights reserved.