Roboty Uczenie Janusz A. Starzyk Wyższa Szkoła Informatyki i Zarządzania w Rzeszowie W oparciu o wykład Dr. Hadi Moradi University of Southern California.

Slides:



Advertisements
Podobne prezentacje
Przygotował: Adrian Walkowiak
Advertisements

"SPOSOBY PRACY Z DZIECKIEM Z ADHD W JEGO NATURALNYM ŚRODOWISKU„
Dzień Jak będzie ładna pogoda, to zbiórka jest pod tunelem z rowerami o 9:40 Jeżeli pogoda nie dopisze, to zbiórka jest pod moim domofonem.
ZESPÓŁ SZKÓŁ OGÓLNOKSZTAŁCACYCH NR 11 W SOSNOWCU PODSUMOWANIE ANKIETY DLA RODZICÓW.
Irina Svichenyuk Valeria Poligova Skąd biorą się motywy dla podróży? Skąd biorą się motywy dla podróży? Każdy człowiek ma jakieś własne potrzeby. To.
Raport z badań. Jeśli badania nie są należycie zakomunikowane, to wszelkie starania dotyczące zachowania procedur staja się bezużyteczne. Funkcje raportu:
Systemy klastrowe inaczej klasterowe.
PROJEKT WEDŁUG DILBERTA
Efekt cieplarniany jako skutek nadmiernej emisji CO 2 Wrzesień – Październik 2009 TWORZENIE SZKÓŁ DLA ZRÓWNOWAŻONEGO ROZWOJU.
Szkoły Globalne w akcji Cel ogólny Stworzenie w sześciu krajach europejskich aktywnej sieci szkół globalnych zaangażowanych w redukcję
WNIOSKI Z PRZEPROWADZONEJ ANKIETY NA TEMAT SAMORZĄDU UCZNIOWSKIEGO ORAZ GAZETKI SZKOLNEJ „KUJONEK”
Debata- samorządność.. Samorząd Uczniowski to działająca w szkole instytucja, obejmująca całą społeczność uczniowską, niezależna od administracji oświatowej.
Wolontariat w BACZYŃSKIM.
Pomoc słabszym w nauce Sprzątanie pobliskiego terenu Pomoc starszym.
Powiedzmy, że jest i wracasz do domu samochodem (oczywiście sam) po niezwykle ciężkim dniu pracy. Jesteś naprawdę zmęczony i sfrustrowany.
Podstawy programowania
Mężczyzna, wiek 92 lata, drobny, o szlachetnym wyglądzie, dobrze ubrany i starannie ogolony, o porządnie uczesanych włosach, który się budzi każdego.
Konteksty tworzenie programów nauczania. ZALECENIE PARLAMENTU EUROPEJSKIEGO I RADY z dnia 23 kwietnia 2008 r. w sprawie ustanowienia europejskich ram.
Uniwersytet Mikołaja Kopernika Wydział Fizyki, Astronomii i Informatyki Stosowanej Podyplomowe Studium Programowania i Zastosowań Komputerów Autor: Marcin.
Prawa Dziecka.
Można powiedzieć, że nasi dziadowie, jeżeli chodzi o kuchnię i gotowanie byli dużo bardziej ekologiczni niż my czy choćby nasi rodzice. Potrawy były zazwyczaj.
Nieformalne miejsca spotkań. ANKIETY Przeprowadziliśmy wśród uczniów gimnazjum ankietę na temat nieformalnych miejsc spotkań. Przedstawimy przykładowe.
Uwaga !!! Uczniowie SP 32 w Toruniu ! Zapraszamy was i Wasze rodziny do wzięcia udziału w Festynie Zdrowia, który odbędzie się 31 maja 2013 roku podczas.
ALGORYTM.
Wykonała Sylwia Kozber
VLAN Sieć VLAN jest logicznym zgrupowaniem urządzeń sieciowych lub użytkowników niezależnie od położenia ich fizycznego segmentu.
Antonie de Saint-Exupery
Rozrachunek trans-graniczny na T2S Dorota Grzegorczyk Dział Strategii i Rozwoju Biznesu, KDPW Warszawa 14 grudnia 2010.
Powrót do sukcesu Analiza przypadku Princessy (rola badań marketingowych podczas rozwoju produktu: ) Powrót do sukcesu Analiza przypadku Princessy.
Przedmiot: Podstawy przedsiębiorczości Autor: Olga Łodyga
PHP Operacje na datach Damian Urbańczyk. Operacje na datach? Dzięki odpowiednim funkcjom PHP, możemy dokonywać operacji na datach. Funkcje date() i time()
Pojęcie i rodzaje doktryn politycznych
Ruch jednostajny po okręgu Ciało porusza się ruchem jednostajnym oraz torem tego ruchu jest okrąg.
Jan Paweł II orędownik prawdy
Znaczenie trzeźwości od alkoholu i narkotyków w miłości
Polskie cyfrowe miasto ? Marzenia a rzeczywistość. Maxymilian Bylicki - Zakopane, Polskie cyfrowe miasto - marzenia a rzeczywistość Maxymilian.
Jak się uchronić przed zagrożeniami wynikającymi z użytkowania sieci?
JANUSZ KORCZAK.
WPROWADZENIE DO PROBLEMATYKI PSYCHOLOGII UCZENIA SIĘ
SKĄD WIEM, KIM JESTEM? O TOŻSAMOśCI I TOŻSAMOŚCIACH
KINECT – czyli z czym to się je?. Damian Zawada
BEZPIECZNY INTERNET. PRZEGLĄDANIE STRON INTERNETOWYCH.
SKALA MAPY Skala – stosunek odległości na mapie do odpowiadającej jej odległości w terenie. Skala najczęściej wyrażona jest w postaci ułamka 1:S, np. 1:10.
Sieci komputerowe. Nowe technologie komputerowe
Liczba “fi” Prezentację przygotowali:
1 Strategia dziel i zwyciężaj Wiele ważnych algorytmów ma strukturą rekurencyjną. W celu rozwiązania rozwiązania problemu algorytm wywołuje sam siebie.
Narodowy Fundusz Ochrony Środowiska i Gospodarki Wodnej UNIA EUROPEJSKA FUNDUSZ SPÓJNOŚCI Kwalifikowanie wydatków c.d. ( najczęściej występujące problemy.
Nasz absolwent na wyższej uczelni
Uczenie w Sieciach Wielowarstwowych
Struktury Sieci Neuronowych
To popularny portal internetowe. Pisząc blog informujemy internautów o swoich zainteresowaniach np. o modzie lub gotowaniu. Niestety czasem zapominamy.
PolGIS jako nowoczesny system do paszportyzacji sieci
CEBULA (ŁOŻYSKO KULKOWE)
Zmiany w Przepisach Gry w Piłkę Nożną od 1 września 2006r. Kolegium Sędziów Warmińsko-Mazurskiego Związku Piłki Nożnej.
Narzędzie wspomagające projektowanie aplikacji Proficy iFIX
Temat 5: Elementy meta.
Informacje podstawowe
Procesy poznawcze WPROWADZENIE.
Przyczyny, przejawy, skutki
Fizyka ruchu drogowego
Wpływ elementów identyfikacji wizualnej i werbalnej na wizerunek miasta.
Instrukcja switch switch (wyrażenie) { case wart_1 : { instr_1; break; } case wart_2 : { instr_2; break; } … case wart_n : { instr_n; break; } default.
Rzeszów r.. Liczba osób badanych 3 Odpowiedzi badanych na temat stosowania krzyku przez rodziców 4.
L.I.P.S.S. Helmut Loidl koordynator Transfer po uko ń czeniu szko ł y podstawowej jest obecnie najgor ę tszym tematem w Europie. Nie przyj ę cie na.
GABRIEL GARCÍA MÁRQUEZ
w/g Grzegorz Gadomskiego
Największym bólem w życiu nie jest śmierć, lecz bycie ignorowanym.
SERCE SPORTOWCA Zespół objawów fizjologicznej, odwracalnej adaptacji u trenujących sporty wytrzymałościowe.
Analiza procesów metodą siatki jakości, badanie satysfakcji klienta, doskonalenie z wykorzystaniem analizy ryzyka 24 kwietnia IV Konferencja Analizy.
KW2 Czy można żyć bez KW2? - Można, ale co to za życie?... [S.Toton 2001r.n.e.]
Zapis prezentacji:

Roboty Uczenie Janusz A. Starzyk Wyższa Szkoła Informatyki i Zarządzania w Rzeszowie W oparciu o wykład Dr. Hadi Moradi University of Southern California Inteligentne Systemy Autonomiczne

Ostatnio zobaczyliśmy Grupy robotów Współpracę Rywalizację Komunikację Uczenie

Zarys wykładu Adaptacja vs Uczenie Adaptacyjna kontrola Dlaczego uczenie w robotach? Wyzwania w uczeniu Typy uczenia Wzmocnienie uczenia Optymalizacja uczenia Niekontrolowane uczenie Algorytm Q Learning

Adaptacja vs Uczenie Uczenie –Powoduje zmiany w organizmie –Bazuje na wiedzy Adaptacja –Jest bardziej nastawione na środowisko. (nie zakłada żadnej wiedzy)

Typy adaptacji Behawioralna – zachowania są wzajemnie dostosowywane Ewolucyjna – potomkowie bazują na umiejętnościach przodków zdobytych przez długi okres. Czuciowa – czujniki stają coraz bardziej dostrajane do środowiska

Typowa sprzężenie zwrotne Kontroler System kontrolowany Typowe sprzężenie zwrotne

Adaptujący się system kontroli Kontroler Element adaptujący się System kontrolowany Typowe sprzężenie zwrotne Użyj sprzężenia zwrotnego aby dostosować parametry

Uczenie Uczenie jest czymś więcej niż adaptacja Uczenie – główna oznaka inteligencji, – największe wyzwanie SI. Trudne do osiągnięcia w fizycznych robotach.

Znaczenie nauki Wprowadza nową wiedzę (fakty, zachowania, reguły) do systemu Uogólnia pojęcia: na podstawie wielokrotnych przykładów Ogranicza pojęcia : do szczególnych sytuacji Reorganizuje informacje Tworzy nowe pojęcia Tworzy wyjaśnienia Używa ponownie doświadczeń z przeszłości

Dlaczego uczenie w robotach? Co jest celem uczenia w robotach? 1)Zdolność do przystosowania do zmian w celu i/lub środowisku robota. 2)Zdolność do zwiększenia wydajności 3)Droga do automatyzacji i/lub programowania robota.

Co może zostać zrobione? Automatyczne: –Projektowanie ciała robota –Projektowanie fizycznej sieci jego procesorów –Generowanie zachowań –Zapamiętywanie i ponowne użycie poprzednio wyuczonych zadań –Poprawianie sposobu w jaki oddziałują jego warstwy –Dostrajanie parametrów zachowania i dużo więcej…

Co zostało zrobione? Automatycznie wygenerowane (np. wyuczone): –Części ciała robota, –Mózgi (procesory) i –Programy Mając początkowe programy użycie metody prób & błędów by ulepszyć programy: –Od dostrajania parametrów do –Zmiany całych zachowań Uwzględnianie zmian w środowisku (np. nowe przeszkody, nowe mapy, większe obciążenia, nowe cele)

Wyzwania w uczeniu Przypisanie odpowiedzialności: Kogo wyróżnić/winić za rezultat? Ważność: co jest istotne w danej chwili? Nowy składnik: kiedy powinno być utworzone nowe pojęcie/odwzorowanie? Indeksowanie: jak zorganizować pamięć? Program użytkowy: co powinno się zapomnieć?

Wyzwania specyficzne dla uczenia robota Sytuacyjność (kontekst) w świecie –Hałas, niedoskonałość, blokada, dynamika itd. Więzy czasu rzeczywistego: –Wolnomyśliciele szybką giną Mieszanka nadzorowana/nienadzorowana Równoczesność i wielomodalność

Terminologia Nagradzanie –Pozytywne sprzężenie zwrotne Funkcja miary kosztu/efektywności –Skalarna (zazwyczaj) miara dobroci Indukcja –Generowanie funkcji (zwanej hipotezą) która aproksymuje przykłady Nauczyciel, krytyk –Dostarcza sprzężenia zwrotnego

System/model –System/agent który chcemy wytrenować Zbieżność Problem przypisania odpowiedzialności –Kto powinien zostać uznany/obwiniony? Trudne do stwierdzenia w czasie Trudne do stwierdzenia w systemach wielu robotów Terminologia (c.d.)

Systemy uczące Wzmocnienie: nagrody/kary aby zmienić wartości numeryczne w kontrolerach Sieci neuronowe: Wzmocnienie przez zmianę wag Nauka ewolucji: Operatory genetyczne jak mutacja populacji kontrolerów –Samo-reperujacy sie robotSamo-reperujacy sie robot Nauka przez doświadczenie: –Bazowanie na pamięci: przeszłe doświadczenia –Bazowanie na przypadku: przeszłe przypadki aby móc dopasować się do aktualnej sytuacji.

Systemy uczące Nauka indukcyjna: Określone sytuacje treningowe do uogólnień i specjalizacji Nauka bazująca na wyjaśnieniach: Wiedza o dziedzinie do kierowania uczeniem Uczenie wielu strategii: Zbiory metod współpracujących lub współzawodniczących ze sobą.

Uczenie ze wzmacnianiem (Reinforcement Learning) Kontroler Krytyk System kontrolowany Typowe sprzężenie zwrotne Wzmocnienie Nagroda: zwiększenie prawdopodobieństwa powtórzenia Kara: zmniejszenie prawdopodobieństwa powtórzenia

Ogólny model uczącego się agenta (Russell & Norvig) Krytyk Element uczący Generator zadań Element wydajności Standardy zachowań sprzężenie zwrotne Cele uczenia Efektory ŚRODOWISKOŚRODOWISKO Czujniki zmiana wiedza Agent

Uczenie ze wzmacnianiem (Reinforcement Learning) Najpopularniejsze podejście w uczeniu mobilnych robotów Inspirowane warunkowaniem w psychologii Zastosowanie nagrody natychmiast po pojawieniu się odpowiedzi powodującej wzrost prawdopodobieństwa powtórzenia...

...dopóki nie wystąpi kara za odpowiedź zmniejszająca prawdopodobieństwo. Tłumacząc na język robotyki: –Pewne połączenia bodźców i reakcji są kojarzone z otrzymana nagrodą by powiększyć prawdopodobieństwo ich późniejszego użycia. Uczenie ze wzmacnianiem (Reinforcement Learning)

Wyzwania w uczeniu ze wzmacnianiem Nauka z późniejszych nagród: –Karanie dziecka po dwóch dniach. Problem przypisania odpowiedzialności: –W grupie dzieci, które wykonały rzecz poprawnie, które ma być nagrodzone?

Uczenie ze wzmacnianiem - bez nadzoru Uczenie bez nadzoru: –Brak pożądanego celu Cel jest osiągnięty ale bez wskazówek –Przykład: Uczenia ze wzmacnianiem Wbudowane pojęcia pożądanych i niepożądanych sytuacji, Powiązanie z nagrodą i karą Uczenie nadzorowane: –Wyraźne pojęcie poprawności

Typy krytyka w uczeniu ze wzmacnianiem Krytyk może być: –zewnętrzny: jeżeli użytkownik dostarcza wzmocnienia –wewnętrzny: jeżeli sam system dostarcza wzmocnienia W obu przypadkach podejście jest bez nadzoru, gdyż odpowiedź nigdy nie jest jawnie przedstawiana przez krytyka.

Sieci neuronowe są uczeniem ze wzmacnianiem Celem wszystkich sieci neuronowych: – jest minimalizacja błędu między danymi wyjściowymi sieci a pożądanymi danymi –Jest osiągnięty dzięki dostosowaniu wag połączeń sieci Sieci neuronowe dostarczają nadzorowanego uczenia ze wzmacnianiem z natychmiastową informacją zwrotną o błędzie Projektowanie robota unikającego przeszkod –Tokyo Lecture 5 time 40:30-54:15 Siec neuronowa robota unikającego przeszkod –Tokyo Lecture 5 time 57:00-1:10:00