Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

Sztuczne sieci neuronowe w doświadczeniach nad fizyką spinową w CERN

Podobne prezentacje


Prezentacja na temat: "Sztuczne sieci neuronowe w doświadczeniach nad fizyką spinową w CERN"— Zapis prezentacji:

1 Sztuczne sieci neuronowe w doświadczeniach nad fizyką spinową w CERN
Beata Pawlukiewicz Seminarium Fizyki Wysokich Energii Warszawa Plan seminarium: Eksperymenty SMC i COMPASS Detekcja procesów fuzji fotonowo-gluonowej Wyniki analiz SMC/COMPASS, w których użyto sieci neuronowych Sieci neuronowe Budowa sieci Trening sieci Przykład klasyfikacji w doświadczeniach SMC i COMPASS Przykład aproksymacji w doświadczeniu COMPASS

2 slajdy z prezentacji G. Brony, 08.06.07
Wyniki wybranych analiz danych doświadczalnych zebranych przez SMC, COMPASS Skoncentruje się na wynikach dotyczących polaryzacji gluonu O tym wyborze decyduje metoda użyta w analizie – użycie sieci neuronowych (po raz pierwszy przy ocenie polaryzacji gluonów przez K. Kowalik) Przypominam Państwu diagram fuzji fotonowo-gluonowej (bezpośredni pomiar polaryzacji gluonów), prezentowany na tym seminarium wiele razy – PGF jest oddziaływaniem wirtualnego fotonu z gluonem, w którym powstaje para qq Detekcję sygnału PGF prowadzimy niezależnie w dwóch kanałach: detekcja mezonów powabnych w stanie końcowym detekcja pary hadronów o wysokim pędzie poprzecznym slajdy z prezentacji G. Brony, B. Pawlukiewicz

3 z Monte-Carlo 05.10.2007 B. Pawlukiewicz
Asymetria mierzona doświadczalnie człony proporcjonalne do polaryzacji gluonów i inne proporcjonalne do polaryzacji kwarków Analiza wymaga oszacowania wkładów poszczególnych procesów do badanej próbki oraz odpowiadających tym procesom asymetrie partonowe oraz tak dobrać cięcia kinemtyczne, żeby procentowy wkład fuzji był jak największy Podejście tradycyjne: cięcie na pęd poprzeczny hadronów oraz na sumę kwadratów pędów poprzecznych Analiza high p_T – ogromna statystyka (mały błąd statystyczny), silnie zależne od modelu 4. Podsumowując: obydwa kanały detekcji PGF ma swoje zalety oraz słabości, które można ulepszyć: sieci NN zostały użyte w obu analizach jako alternatywa do standardowych metod z sukcesem z Monte-Carlo B. Pawlukiewicz

4 G/G w kanale mezonów powabnych
z Monte-Carlo Mierzona doświadczalnie asymetria liczby zdarzeń jest wprost proporcjonalna do polaryzacji gluonów. Współczynnikiem proporcjonalności jest asymetria partonowa (wielkość nie rekonstruujemy doświadczalnie i dlatego musi być oceniona z symulacji Monte Carlo) Tradycyjny sposób oceny a_ll: parametryzacja robiona w przestrzeni dwóch zmiennych kinematycznych (P_t D0 oraz z_D0) Zaleta metody: – kanał bardzo czysty, łatwy do rekonstrukcji (K-p+), ale ze względów aparaturowych i ogranicz. Się do złotego kanału mamy mocno ograniczona statystykę sygnału i duże tło kombinatoryczne (jednym z największych problemów tej analizy jest duży błąd statystyczny) slajdy z prezentacji G. Brony, B. Pawlukiewicz

5 Wyniki otrzymane przy użyciu sieci neuronowych
SMC, high pT (Q2>1 GeV2), Phys.Rev.D70:012002,2004 COMPASS w kanale mezonów powabnych, Analiza high P_T – przy pomocy sieci NN wydobyta większy sygnał i udało się zmniejszyć błąd statystyczny średnio o 0.2 (poprawa w błędzie systematycznym minimalna) Analiza open charm – przy pomocy sieci lepiej sparametryzowano a_ll, co znalazło odbicie również w zmniejszeniu błędu statystycznego praca doktorska G. Brona B. Pawlukiewicz

6 Sieci neuronowe – co to jest?
1. Sieci neuronowe są metodą, która czerpie inspiracje z modelu mózgu 2. Sieci NN są alternatywą w stosunku do dobrze Państwu znanych tradycyjnych metod minimalizacji chi2 B. Pawlukiewicz

7 Sztuczne sieci neuronowe
Uproszczony model mózgu - zespół powiązanych ze sobą komórek równolegle przetwarzających informacje Neuron: oblicza sumę ważoną sygnałów wejściowych zwraca odpowiedź w postaci pojedynczego sygnału przesyła odpowiedź do kolejnych elementów Neurony tworzą warstwy w1 w2 w3 S NEURON Potencjał sieci kryje się w architekturze sieci (liczba neuronów!) i sile połączeń między elementami – sieć potrafi zrealizować dowolną zależność między zbiorem wejściowym a wyjściowym B. Pawlukiewicz

8 Pojedynczy neuron liniowy
nieliniowy liczby wektor wag funkcja aktywacji E Q2 y 1 w1 x1 w0 x2 w2 S f(S) y wn xn odpowiedź neuronu pobudzenie neuronu wektor wejściowy B. Pawlukiewicz

9 Nieliniowe funkcje aktywacji
dyskretne (signum, skok jednostkowy...) ciągłe: każda funkcja ograniczona, monotoniczna, niewielomianowa sigmoidalna (prosta postać pochodnej!) f() B. Pawlukiewicz

10 Neuron dyskretny x1 x2 y S xn pobudzenie neuronu
w1 w2 x1 x2 xn w0 y S wn f() pobudzenie neuronu odpowiedź sieci y = (n-1)-wymiarowa hiperpłaszczyzna dzieli przestrzeń na dwie podprzestrzenie B. Pawlukiewicz

11 Znaczenie dodatkowej wagi neuron dyskretny
x1 w1 . y w2 S x2 x2 1 W0 . . . . . c=0 . . c=1.5 . . . . . x1 . . . . . B. Pawlukiewicz

12 Wielowarstwowa sieć neuronów nieliniowych MLP (multi-layer perceptron)
f(S) y x1 xn 1 S warstwa wejściowa warstwy ukryte warstwa wyjściowa w11 w1n w10 wji B. Pawlukiewicz

13 Dowolny podział przestrzeni przy użyciu neuronów dyskretnych
B. Pawlukiewicz

14 Trening sieci neuronowej
z nauczycielem – znamy pożądaną odpowiedź sieci dla danych wejściowych (np. z symulacji Monte Carlo) cel uczenia: otrzymanie prawidłowych odpowiedzi dla zbioru, który nie był wykorzystywany w procesie uczenia (GENERALIZACJA) metoda: minimalizacja różnicy pomiędzy oczekiwanymi a otrzymanymi odpowiedziami sieci za pomocą iteracyjnego procesu adaptacji wag B. Pawlukiewicz

15 Trening sieci z nauczycielem. Pierwsze kroki.
przygotowanie danych wejściowych ustalona architektura sieci losowanie początkowych wag w B. Pawlukiewicz

16 Przygotowanie danych wejściowych
f’() podział wektorów wejściowych i pożądanych odpowiedzi na podzbiory: uczący i testowy przygotowanie danych: przeskalowanie do takiego zakresu, żeby wypadkowe pobudzenie neuronu pokrywało się z zakresem, w którym pochodna funkcji aktywacji jest istotnie różna od zera eliminacja zbędnych zmiennych wygładzenie rozkładów szybkozmiennych B. Pawlukiewicz

17 Trening sieci z nauczycielem
miara błędu sieci: Q spełnia „STOP”? KONIEC poprawa wag tak nie algorytm rozbudowy poprawa architektury B. Pawlukiewicz

18 Warunek zatrzymania uczenia
wagi stają się stabilne błąd sieci dla zbioru uczącego przestaje maleć błąd sieci dla zbioru testowego zaczyna rosnąć w dobrych warunkach statystycznych => oba błędy przestają maleć zbiór uczący zbiór testowy liczba iteracji błąd sieci en.wikipedia.org B. Pawlukiewicz

19 Minimalizacja funkcji błędu
szukamy takiego wektora w, dla którego Q(w) osiąga globalne minimum używamy metod gradientowych zmiana j-tej wagi w kroku (i+1) proporcjonalna do składowej gradientu: błąd j-tego neuronu z warstwy wyjściowej: a błąd neuronu z warstwy ukrytej? B. Pawlukiewicz

20 Algorytm wstecznej propagacji błędu
idea: błąd propaguje się od warstwy ostatniej do pierwszej wystarczy wiedza o gradiencie dla warstwy późniejszej błąd m-tego neuronu warstwy ukrytej: f(S) y x1 xn 1 suma po wszystkich wyjściach neuronu ukrytego B. Pawlukiewicz

21 Przykładowa powierzchnia błędu
prezentacja R. Suleja, seminarium IPJ, 2005 B. Pawlukiewicz

22 prezentacja R. Suleja, seminarium IPJ, 2005
Szukanie minimum globalnego funkcji błędu – rożne algorytmy gradientowe prezentacja R. Suleja, seminarium IPJ, 2005 B. Pawlukiewicz

23 Wady i zalety sieci neuronowej
pozwala rozwiązywać problemy bez znajomości analitycznej zależności między danymi wejściowymi a oczekiwanymi wyjściami skuteczna w rozwiązywaniu problemów nieseparowalnych zdolność generalizacji różnorodność zastosowań: rozpoznawanie pisma, mowy, analizy finansowe rynku... Wady: brak dowodów zbiegania do globalnego minimum metodami gradientowymi kłopotliwe dla niedoświadczonego użytkownika, jeśli sam ustala algorytm, parametry algorytmu oraz architekturę sieci niebezpieczeństwo przetrenowania lub niedouczenia sieci B. Pawlukiewicz

24 Sieci użyte w analizie problemów fizycznych
ze względu na funkcję aktywacji liniowe nieliniowe dyskretne ciągłe ze względu na architekturę sieci nieliniowe jednokierunkowe rekurencyjne jednowarstwowe wielowarstwowe uczenie ze względu na rodzaj uczenia z nauczycielem bez nauczyciela z krytykiem B. Pawlukiewicz

25 Zadanie klasyfikacji typowe zadanie klasyfikacji:
odseparowanie sygnału od tła zadanie realizuje sieć: dwie warstwy ukryte + wyjściowa sigmoidalna fakt neuronu wyjściowego jakość nauki określają dwa współczynniki: trafność (purity r) i sprawność (efficiency h) B. Pawlukiewicz

26 Selekcja przypadków PGF para hadronów z dużym pT, dane SMC
krzywa ciągła – sygnał krzywe przerywane - tło praca doktorska K. Kowalik, IPJ B. Pawlukiewicz

27 Selekcja przypadków PGF para hadronów z dużym pT, dane SMC
Phys.Rev.D70:012002,2004 B. Pawlukiewicz

28 Selekcja przypadków PGF para hadronów z dużym pT, dane COMPASS-owe
Meas. Sci. Technol., Vol. 18 (2007) B. Pawlukiewicz

29 Zadanie aproksymacji aproksymacja nieznanej zależności między zmiennymi wejściowymi a pożądanymi odpowiedziami zadanie realizuje sieć: dwie warstwy ukryte + wyjściowa liniowa fakt neuronu wyjściowego jakość aproksymacji określa współczynnik korelacji: B. Pawlukiewicz

30 Zadanie aproksymacji all kanał mezonów powabnych, COMPASS
RNN = 0.82 DIS 2006, COMPASS, G. Mallot B. Pawlukiewicz

31 Podsumowanie sieci zostały użyte do zadań detekcji sygnału i estymacji nieznanej funkcji użyto sieci typu MLP trenowanych z nauczycielem w obu zastosowaniach wyniki sieci okazały się nieznacznie lepsze od wyników otrzymanych metodami tradycyjnymi analiza danych COMPASS-a z użyciem sieci (m.in. separacja PGF w kanale D0 od tła) w toku. B. Pawlukiewicz

32 Serdecznie dziękuję R. Sulejowi i prof. B
Serdecznie dziękuję R. Sulejowi i prof. B. Badełek za pomoc w przygotowaniu tego seminarium  B. Pawlukiewicz


Pobierz ppt "Sztuczne sieci neuronowe w doświadczeniach nad fizyką spinową w CERN"

Podobne prezentacje


Reklamy Google