SZTUCZNA INTELIGENCJA ARTIFICIAL INTELLIGENCE WYKŁAD 7 UCZENIE MASZYNOWE Dr hab. inż. Barbara Dębska, prof. PWSZ KROSNO Dr hab. inż. Barbara Dębska, prof. PWSZ Krosno
GŁÓWNE TEMATY: Uczenie maszyn Metody oparte na podobieństwie Drzewa decyzyjne Algorytmy genetyczne Sieci neuronowe Dr hab. inż. Barbara Dębska, prof. PWSZ Krosno
UCZENIE MASZYN Machine Learning, ML: część sztucznej inteligencji (symboliczne) lub inteligencji obliczeniowej (CI, computational intelligence) Modele adaptujące się, zmieniające swoje wewnętrzne parametry tak, by rozpoznać charakter danych. ML umożliwia automatyczną akwizycję wiedzy. Alternatywa dla tworzenia reguł na podstawie analizy zachowań ekspertów lub danych doświadczalnych. ML czerpie inspiracje z informatyki, statystyki, rozpoznawania obrazów (pattern recognition) i kognitywistyki. Dr hab. inż. Barbara Dębska, prof. PWSZ Krosno
UCZENIE MASZYN c.d. System uczący się używa danych tworząc model pozwalający na przewidywanie zachowania dla przyszłych danych, czasami wyrażając swoją wiedzę w symbolicznej postaci. Uczenie: zmiany w systemie adaptującym się pozwalające mu w przyszłości działać bardziej efektywnie na zadaniach o podobnym lub analogicznym charakterze. Często dane są w postaci przykładów. Eksperci opisują sytuacje podając przykłady. Problemy redukują się do klasyfikacji (diagnozy). Reguły otrzymane metodami ML mogą być lepsze niż reguły wydedukowane przez ludzi. ML oferuje szybszą drogę do tworzenia systemów eksperckich - jeśli reguły nie są znane czasami jedyną drogę. Dr hab. inż. Barbara Dębska, prof. PWSZ Krosno
PORÓWNANIE CZASÓW ROZWOJU ES i ML Nazwa Typ L. reguł Czas (lat) Poprawki (lata) MYCIN ES 1.000 100 wiele XCON 8.000 180 30 GASOIL ML 2.800 1 0,1 BMT 30.000 9 2 Dr hab. inż. Barbara Dębska, prof. PWSZ Krosno
UCZENIE Z NADZOREM Uczenie z nadzorem: podział na znane klasy, przekazywanie znanej wiedzy, heteroasocjacja - kojarzenie obiektów i ich własności. Opis obiektów System adaptujący się Wyniki działania Pożądane odpowiedzi Funkcja kosztu Algorytm uczący Cel uczenia: generalizacja Dr hab. inż. Barbara Dębska, prof. PWSZ Krosno
UCZENIE BEZ NADZORU p2 p3 p1 s3 s2 Wykrywanie nieznanych klas, uczenie spontaniczne, odkrywanie ciekawych struktur w przestrzeni danych, korelacja zachowań systemu ze zmianą tych struktur. (Dominuje w okresie niemowlęcym.) Opis obiektów pi System adaptujący się Tworzenie klas Miary podobieństwa Funkcja jakości grupowania Algorytm uczący p2 p3 p1 s3 s2 Dr hab. inż. Barbara Dębska, prof. PWSZ Krosno
KLASY METOD Powszechnie stosowane: Drzewa decyzji/indukcja reguł Rozumowanie oparte na analogiach, precedensach (case-based) i oparte na pamięci (memory-based) Logika rozmyta Sieci neuronowe Nowe rozwijane obecnie metody: przestrzenie wersji (version spaces) algorytmy genetyczne sieci probabilistyczne (Bayesowskie) zbiory i logika przybliżona induktywne programowanie logiczne (ILP) uczenie ze wzmocnieniem (reinforcement) Dr hab. inż. Barbara Dębska, prof. PWSZ Krosno
function DT(E: zbiór przykładów) returns drzewo; DRZEWA DECYZJI function DT(E: zbiór przykładów) returns drzewo; T' := buduj_drzewo(E); T := obetnij_drzewo(T'); return T; function buduj_drzewo(E: zbiór przyk.) returns drzewo; T := generuj_tests(E); t := najlepszy_test(T, E); P := podział E indukowany przez t; if kryterium_stopu(E, P) then return liść(info(E)) else for all Ej in P: tj := buduj_drzewo(Ej); return węzeł(t, {(j,tj)}; Dr hab. inż. Barbara Dębska, prof. PWSZ Krosno
PRZYKŁADOWE DRZEWO DECYZJI Dr hab. inż. Barbara Dębska, prof. PWSZ Krosno
DT DO KLASYFIKACJI Testy: podział pojedynczej cechy, lub kombinacji Attrybut={wartośći} lub Attrybut < wartośći Kryteria: maksymalizacja ilości informacji, maksymalizacja liczby poprawnie podzielonych obiektów, Przycinanie: usuń gałęzie, które zawierają zbyt mało przypadków prostsze drzewo może lepiej generalizować oceń optymalną złożoność na zbiorze walidacyjnym. Kryterium stopu: osiągnięta dokładność podziałów, zbyt wiele gałęzi. Popularne systemy: ID3, C4.5, CART - szybkie. Dr hab. inż. Barbara Dębska, prof. PWSZ Krosno
PRZESTRZENIE WERSJI 3 X 3 X 7 X 2 = 126 Miejsce Posiłek Dzień Koszt Indukcja reguł/koncepcji na podstawie analizy danych Miejsce Posiłek Dzień Koszt Reakcja DS. 1 śniadanie Piątek tanio Tak Kosmos lunch Piątek drogo Nie DS. 1 lunch Sobota tanio Tak Bar mleczny śniadanie Niedziela tanio Nie DS. 1 śniadanie Niedziela drogo Nie W jakich warunkach mamy reakcje alergiczne? Miejsce Posiłek Dzień Koszt 3 X 3 X 7 X 2 = 126 Dr hab. inż. Barbara Dębska, prof. PWSZ Krosno
VS - HIPOTEZY Zdarzenia h3 x2 h2 h1 x1 Mamy funkcję logiczną: Reakcja(Miejsce, Posiłek, Dzień, Koszt) Znamy jej wartości dla kilku przykładów. Zadanie: zrekonstruować najprostszą funkcję. VS: koncepcje mapujemy na hipotezy o różnym stopniu ogólności. Zdarzenia x2 x1 Ogólne Specyf. h2 h3 h1 Dr hab. inż. Barbara Dębska, prof. PWSZ Krosno
VS - HIPOTEZY x1= <DS1, lunch, Poniedziałek, tanio> x2= <Kosmos, lunch, Sobota, drogo> Hipoteza <?,?,?,?> Hipoteza h3= <?, lunch, ?, ?> b. ogólna h1= <?, lunch, ?, tanio> h2= <?, lunch, Sobota, ?> Koncepcje: od najbardziej szczegółowych do całkowicie ogólnych. Kolor {Kolor czysty, kolor mieszany} { {cz, z, n}, {p, b, ...} } Indukcyjne uczenie koncepcji: Jeśli koncepcja dobrze przybliża poszukiwaną funkcję na dużej liczbie przykładów to będzie dobrym przybliżeniem również dla nowych przykładów. Dr hab. inż. Barbara Dębska, prof. PWSZ Krosno
VS - ALGORYTM NAIWNY Inicjalizacja: h := For każdego pozytywnego przykładu x w D Do: If h nie pokrywa x: Zamień h na minimalne uogólnienie h które pokrywa x Return h Zalety: nie musi pamiętać poprzednich przykładów, zapis prosty w konstrukcji. Wady: może być kilka minimalnych generalizacji => wiele kombinacji; nie wykrywa sprzeczności w danych, nie wykrywa ograniczeń języka hipotez H nie pozwalających nauczyć się danej koncepcji. Dr hab. inż. Barbara Dębska, prof. PWSZ Krosno
Czy ewolucja dobrze optymalizuje? ALGORYTMY GENETYCZNE Ewolucja: symuluj „przetrwanie najlepiej przystosowanych osobników”. Używa: Populacji adaptacyjnych systemów z różnymi parametrami. Reprezentacji systemu w postaci ciągu parametrów - chromosomu. Operatorów genetycznych: mutacji, krzyżowania. Funkcji przystosowania (kosztu). Zalety: atrakcyjne, szuka globalnego minimum, łatwe do zaprogramowania i uniwersalne, zrównoleglenie. Wady: powolne, wymaga wiele iteracji, ma wiele parametrów określających działanie operatorów. Czy ewolucja dobrze optymalizuje? Dr hab. inż. Barbara Dębska, prof. PWSZ Krosno
SIECI NEURONOWE Inspiracja neurobiologiczna: jak robią to mózgi? Używa: Neuronów - prostych elementów przetwarzających sygnały. Synaps - parametrów adaptacyjnych związanych z połączeniami określającymi siłę pobudzeń. Wyrafinowanych algorytmów korekcji parametrów (uczenia). Funkcji kosztu/oceny jakości działania. Wiele modeli: perceptrony wielowarstwowe (MLP), sieci RBF, samoorganizujące się sieci SOM ... Zalety: uniwersalne, dużo symulatorów, odporne na szum w danych, wiele zastosowań. Wady: powolne, wymaga wiele iteracji, niektóre modele wolno się uczą, lokalne optima, wiele parametrów, trudna interpretacja. Dr hab. inż. Barbara Dębska, prof. PWSZ Krosno
SIECI NEURONOWE - PRZYKŁAD Wejścia: dane ciągłe lub dyskretne. Neuron sumuje wartości sygnałów wejściowych określając pobudzenie. f(.) - funkcja schodkowa lub sigmoidalna q - prób działania neuronu. W sieciach neuronowych wiele takich neuronów połączonych jest ze sobą realizując dowolnie skomplikowane funkcje. Dr hab. inż. Barbara Dębska, prof. PWSZ Krosno
DATA MINING DM część KDD - Knowledge Discovery in Databases. Szukanie wiedzy w bazach danych, oparte na różnych metodach ML Dane - duże bazy danych, komercyjne, techniczne, tekstowe (WWW). Selekcja - wybieranie podzbioru danych i atrybutów do analizy. Pre-processing - wstępne przetwarzanie, czyszczenie danych (szum i wyrzutki), uzupełnianie braków, standaryzacja ... Transformacja - do postaci akceptowalnej przez program. DM - klasyfikacja, regresja, klasteryzacja, wizualizacja ... Dr hab. inż. Barbara Dębska, prof. PWSZ Krosno
ZASTOSOWANIA ML Zintegrowane pakiety programów z elementami ML. Dużo zastosowań w przemyśle maszynowym, naftowym (BP), chemicznym , finansach (American Express), komputerowym (Siemens), określanie jakości oprogramowania (NEC), eksploracja baz danych (data mining), e-commerce i Web-mining. Oszczędności rzędu M$/rok! Zastosowania w nauce: katalogowanie obiektów, np. astronomicznych czy chemicznych, odkrywanie nowych praw, analiza obrazów. Inne zastosowania: automatyczny kierowca/pilot/czołg ... komputerowy czeladnik - obserwacja zachowania eksperta, interakcja. Dr hab. inż. Barbara Dębska, prof. PWSZ Krosno
WYSZUKIWANIE UKRYTYCH STRUKTUR WIEDZY Powszechna komputeryzacja i rozwój nowych technologii informatycznych znacznie zwiększa możliwości w zakresie gromadzenia i przechowywania danych. Istotnym problemem jest efektywne wyekstrahowanie użytecznej wiedzy, ukrytej w szybko rosnących zbiorach danych, zarówno w postaci zrozumiałej dla użytkownika, jak również wygodnej i przydatnej do komputerowego przetwarzania. Główną zasadę analizy danych można zapisać w następujący sposób: Analiza danych Odpowiedzi na konkretne pytania Dostarczenie informacji dla nowych kierunków badań = + Dr hab. inż. Barbara Dębska, prof. PWSZ Krosno
PROCES EKSTRAKCJI WIEDZY Z BAZ DANYCH zwany w literaturze jako wykrywanie regularności, jest procesem złożonym, w którym można wyróżnić cztery podstawowe grupy zadań: selekcja (wybór danych lub wybór podzbioru bazy danych), transformacja danych, drążenie danych, (ang. data mining), oraz interpretacja wyników. SELEKCJA DANYCH ma za zadanie wybranie z bazy źródłowej, takiego zbioru przykładów, by zbudowana baza danych (wejściowa), zawierała jednoczesne i zgodne z celem badań informacje, niezbędne do wygenerowania prawidłowego rozwiązania. TRANSFORMACJA DANYCH to przystosowanie wyselekcjowanych danych do stosowanego algorytmu, jak również konwersja danych z jednego typu do innej postaci wymaganej przez wybrany algorytm drążenia danych. Dr hab. inż. Barbara Dębska, prof. PWSZ Krosno
DRĄŻENIE DANYCH ma na celu pozyskiwanie wiedzy (uczenie maszynowe, ang. machine learning) z bazy danych i może odbywać się następująco: przez wkuwanie (ang. rote learning). Komputer w zasadzie nie uczy się, gdyż brak tutaj zdolności wnioskowania. Występuje tu jedynie składowanie wiedzy oraz późniejsze jej odzyskiwanie jeżeli jest to konieczne; przez instruktaż (ang. learning by instructio). Wiedza jest przechowywana w postaci reguł zrozumiałych przez komputer, które później mogą być wykorzystywane do klasyfikacji lub predykcji; (ang. learning by analogy). Proces wydobywania nowej wiedzy opiera się na wzorcach, za pomocą których w przeszłości rozwiązane zostały pozytywnie podobne problemy; przez analogię Dr hab. inż. Barbara Dębska, prof. PWSZ Krosno
DRĄŻENIE DANYCH c.d. na podstawie przykładów (ang. learning from examples). Jest to uczenie nadzorowane, w którym znana jest przynależność rozpatrywanych obiektów do poszczególnych klas. Obiekty przypisane do tej samej grupy służą do zdefiniowania ogólnego opisu modelu danej klasy. Model ten później będzie potrzebny do procesu klasyfikacji nieznanych obiektów, czyli do rozwiązywania nieznanych problemów; (ang. learning from discovery). Koniecznym i wystarczającym warunkiem w tym modelu uczenia jest posiadanie pewnej wiedzy oraz liniowa niezależność rozpoznawanych klas. na podstawie odkrycia Dr hab. inż. Barbara Dębska, prof. PWSZ Krosno
ALGORYTMY DRĄŻENIA DANYCH pozwalają na grupowanie, klasyfikację, predykcję i poszukiwanie zależności występujących między danymi. INTERPRETACJA WYNIKÓW jest końcowym etapem procesu pozyskiwania wiedzy z baz danych. Wiarygodność wyników algorytmów zastosowanych w procesie uczenia musi być potwierdzona za pomocą testów. Omówione zostaną następujące metody analizy danych: LLM i KNN należąca do grupy metod zwanych jako metody rozpoznawania obrazów, CA algorytm oparty na analizie skupień, GA algorytm genetyczny oparty na symulacji generowania nowych pokoleń o lepszych właściwościach niż pokolenia rodziców ANN algorytm oparty na sztucznych sieciach neuronowych. Dr hab. inż. Barbara Dębska, prof. PWSZ Krosno
Dziekuję za uwagę Dr hab. inż. Barbara Dębska, prof. PWSZ Krosno