Pobierz prezentację
Pobieranie prezentacji. Proszę czekać
OpublikowałKrystian Watras Został zmieniony 11 lat temu
1
SZTUCZNA INTELIGENCJA ARTIFICIAL INTELLIGENCE
WYKŁAD 9 ANALIZA SKUPIEŃ Dr hab. inż. Barbara Dębska, prof. PWSZ KROSNO Dr hab. inż. Barbara Dębska, prof. PWSZ Krosno
2
GRUPOWANIE OBIEKTÓW Grupowanie obiektów to operacja która leży u podstaw spostrzegania, myślenia, podejmowania decyzji oraz formułowania nowych wniosków i ma istotne znaczenie dla rozwoju wiedzy. Przyjmuje się, że: · niektóre czynniki opisujące analizowany proces są decydujące (esencjalne) dla prawidłowości występujących w badanym zjawisku i to one pozwalają na wykrywanie praw i budowanie teorii; · inne są drugorzędne i modyfikują jedynie zakres działania czynników esencjalnych. Dr hab. inż. Barbara Dębska, prof. PWSZ Krosno
3
Wykrycie czynników esencjalnych prowadzi do budowania idealnych praw i teorii, natomiast wykrycie czynników drugorzędnych pozwala na wprowadzenie niezbędnych korekt do tych praw i teorii, takich aby mogły one funkcjonować w praktyce. Wyodrębnianie podobnych obiektów, łączenie ich w homogeniczne grupy daje stanowi wyjściowy krok do zbadania istoty (esencji) badanego zjawiska. Pogrupowanie obiektów (a więc ich uporządkowanie, posortowanie i zliczenie) prowadzi do zmniejszenia entropii zbioru i w konsekwencji prowadzi do postawienia pytań o najważniejsze cechy opisujące badane obiekty. Dr hab. inż. Barbara Dębska, prof. PWSZ Krosno
4
Grupowanie obiektów znajduje zastosowanie w wielu dziedzinach nauki:
Badacz rekonstruuje przestrzeń czynników istotnych dla badanego zjawiska, a następnie dokonuje hierarchizacji tych czynników. Wskazane cechy, ustawione w określonej hierarchii, stanowić będą podstawę grupowania. Grupowanie obiektów znajduje zastosowanie w wielu dziedzinach nauki: · w biologii, botanice i zoologii – obiektami grupowanymi są organizmy żywe; grupowanie to np. systematyzacja wyjaśniająca ewolucję. · w naukach medycznych – obiektami grupowanymi są pacjenci, choroby i ich symptomy, dolegliwości, sposoby leczenia, itp. · w naukach społecznych - przedmiotem grupowania są typy osobowości, populacje ludzkie, struktury społeczne, czy programy rozwoju gospodarczego; grupowanie prowadzi do porządkowania tych danych, co pozwala na ich interpretację i budowanie teorii, · w badaniach nad sztuczna inteligencją - komputerowo wspomaganym rozpoznawaniu obrazów, pisma ręcznego, głosu ludzkiego itp. Dr hab. inż. Barbara Dębska, prof. PWSZ Krosno
5
Grupując obiekty można brać pod uwagę jedną lub wiele cech.
W przypadku jednej cechy problem sprowadza się do analizy prowadzonej na jednej zmiennej. Operacja grupowania polega na klasyfikacji obiektów według kryterium, którym jest rozważana cecha. Zazwyczaj grupowanie jest jedną z metod analiz wielowymiarowych a grupowane obiekty opisane są za pomocą wielu cech. Kryterium grupowania jest funkcją uwzględniającą wszystkie wymiary, która w zależności od typu i metody grupowania przybiera różne formy. Rozróżnia się dwa zasadnicze typy metod grupowania: 1. metoda klasyfikacji, 2. metoda skupiania (ang. cluster analysis). Dr hab. inż. Barbara Dębska, prof. PWSZ Krosno
6
(1) Iris virginica, (2) Iris versicolor i (3) Iris setosa.
Metoda klasyfikacji – prowadzi do przypisania, przydzielenia poszczególnych obiektów do już istniejących grup obiektów. Każda z grup jest ściśle scharakteryzowana, a każdy obiekt zaliczany do danej grupy musi odpowiadać jej charakterystyce. Metody klasyfikacji zostały zapoczątkowane przez Fishera (1936 r.) i noszą nazwę metod analizy dyskryminacyjnej. W swojej pracy Fisher zajął się problemem grupowania irysów należących do trzech kategorii: (1) Iris virginica, (2) Iris versicolor i (3) Iris setosa. Zbiór liczył 150 kwiatów (po 50 każdego rodzaju). Każdy kwiat opisany był za pomocą czterech cech (wymiary, zmienne): długość i szerokość działki kielicha i płatka. Dr hab. inż. Barbara Dębska, prof. PWSZ Krosno
7
Dla tych danych Fisher dobrał liniową funkcję dyskryminacyjną, która dała podstawę do uzyskania optymalnej separacji klas. Funkcja ta uwzględniała wszystkie cztery wymiary charakteryzujące grupowane irysy. Ogólnie, liniową funkcję dyskryminacyjną można przedstawić zależnością: =0+1x1+2x2+...+mxm gdzie: - zmienna zależna reprezentująca jedną z cech charakterystycznych badanego zjawiska (odpowiedź eksperymentalna), j - współczynnik, który należy wyznaczyć (j=0,1,...m), xj - zmienna niezależna (objaśniająca) ( j=1,2,...,m). Dr hab. inż. Barbara Dębska, prof. PWSZ Krosno
8
Do ustalenia zdolności dyskryminacyjnej różnych atrybutów opisujących badane obiekty i określenia ich wpływu na wynik klasyfikacji można wykorzystać metodę liniowej regresji krokowej (postępującej lub wstecznej) (np. wchodzącą w skład pakietu STATISTICA). Regresja krokowa: Krok 1. Oceniane są wszystkie zmienne niezależne i wybrana, oraz wprowadzona do równania zostaje ta, która zapewnia największą wartość F (F – parametr służący do testowania hipotezy o istotności równania funkcji dyskryminacyjnej) Krok 2. W tym i w każdym następnym kroku jakaś zmienna jest dodawana do modelu, program sprawdza zmienne już do modelu włączone i określa, czy któraś z nich nie powinna być usunięta z równania w oparciu o wyliczoną wartość F Krok 3 (rozwiązanie końcowe). W tym kroku następuje zakończenie procedury wyznaczania funkcji i wyprowadzenie jej równania oraz jego ocena. Dr hab. inż. Barbara Dębska, prof. PWSZ Krosno
9
Krok 1. MW (masa molowa, molecular weight):
Przykład. Wygenerowanie równania klasyfikującego badane związki chemiczne do jednej z trzech klas w zależności od wartości opisujących je cech (masy molowej oraz dwóch indeksów walencyjności) : Krok 1. MW (masa molowa, molecular weight): BP = * MW, ( R2 = 0.925). Krok 2. 2 (indeks wiązalności cząsteczkowej rzędu 2): BP = * MW – * 2 , ( R2 = 0.946). Krok 3. 4 (indeks wiązalności cząsteczkowej rzędu 4): BP = * MW – * 2 – * 4, ( R2 = 0.951). Dr hab. inż. Barbara Dębska, prof. PWSZ Krosno
10
KLASYFIKACJA METOD ANALIZY SKUPIEŃ
Metody skupiania – nie zakładają żadnego kryterium przypisywania obiektów do grup. Jedynym kryterium podziału jest matematycznie zdefiniowane podobieństwo miedzy obiektami. Odpowiednia procedura skupiania tworzy grupy (skupienia) obiektów. Liczba grup (skupień) nie jest zadawana z góry. Dr hab. inż. Barbara Dębska, prof. PWSZ Krosno
11
Założenia analizy skupień:
1. Dany jest niepusty, skończony zbiór obiektów G = {O1, O2 , , On} . 2. Każdy z obiektów opisany jest przez k cech. 3. Nie zakłada się żadnego zewnętrznego podziału obiektów. 4. Grupowanie obiektów będzie dokonane z uwzględnieniem wszystkich k cech. 5. Podstawą grupowania jest podobieństwo obiektów. 6. Podobieństwa pomiędzy obiektami zostają wyznaczone na podstawie odpowiedniego wskaźnika, miary podobieństwa lub odległości. 7. Dysponując macierzą współczynników odległości (podobieństwa) należy zastosować odpowiednie metody skupiania obiektów i uzyskać pewną liczbę (np. h ) skupień. 8. Należy dążyć do uzyskania takich skupień, które są zbiorami rozłącznymi. 9. Wybiera się metody skupiania, które prowadzą do uzyskania podziałów zupełnych (wszystkie grupowane obiekty są zaliczone do uzyskanych skupień). Dr hab. inż. Barbara Dębska, prof. PWSZ Krosno
12
ze zbioru R, która jest współczynnikiem podobieństwa tych obiektów.
Funkcja podobieństwa s przyporządkowuje parze obiektów ( Oi , Oj ) należących do niepustego zbioru obiektów G pewną liczbę rzeczywistą Sij = s( Oi , Oj ) ze zbioru R, która jest współczynnikiem podobieństwa tych obiektów. Aksjomaty i warunki spełniane przez funkcję podobieństwa s dla obiektów Oi , Oj , Ok: 1. aksjomat maksymalnego podobieństwa: Sij Smax 2. aksjomat symetrii: Sij = Sji 3. aksjomat zwrotności: Sii = Smax 4. warunek pierwszy: Sij = Smax Oi = Oj 5. warunek drugi: Sij + Sjk * Sjk Sij * Sjk Dr hab. inż. Barbara Dębska, prof. PWSZ Krosno
13
Metody łączące (aglomeracyjne)
Metody Analizy Skupień Metody Zupełnej Analizy Skupień Metody Niezupełnej Analizy Skupień Metody Analizy Hierarchicznej Metody Analizy Niehierarchicznej M. A. Macierzowej M. A. Bezmacierzowej Metody całkowitego wyliczenia skupień Metody sortowania najbliższych środków ciężkości Metody pozostałe Metody łączące (aglomeracyjne) Metody dzielące (rozszczepiające) Metody wyszukiwania gęstości Metody przemieszczeń Dr hab. inż. Barbara Dębska, prof. PWSZ Krosno
14
CHARAKTERYSTYKA METOD ANALIZY SKUPIEŃ
Metody zupełnej analizy skupień W tych metodach wszystkie grupowane obiekty są zaliczone do uzyskanych skupień. Metody te dzielą się na metody analizy hierarchicznej i metody analizy niehierarchicznej . Metody hierarchicznej analizy skupień Wśród metod hierarchicznych wyróżnia się metody aglomeracyjne (łączące) i metody dzielące. W efekcie zastosowania metod hierarchicznych uzyskuje się dendryt lub drzewo skupień. Skupienia te są uszeregowane w ten sposób, że skupienia niższego rzędu wchodzą w skład skupień wyższych rzędów, zgodnie z hierarchią podobieństwa występującego pomiędzy obiektami. (Metody te będą omówione bardziej szczegółowo). Dr hab. inż. Barbara Dębska, prof. PWSZ Krosno
15
Metody niehierarchicznej analizy skupień
Wszystkie metody niehierarchicznej analizy skupień są metodami macierzowymi. Przyjmując za kryterium podziału sposób analizowania macierzy prowadzący do wyodrębniania skupień można wyróżnić pięć zasadniczych grup metod: 1. metody całkowitego wyliczania skupień – polegają na wyznaczeniu wszystkich możliwych podziałów obiektów, ich analizowaniu i na wyodrębnieniu na tej drodze optymalnego układu skupień, 2. metody sortowania najbliższych środków ciężkości – najpierw wyodrębnia się w zbiorze obiektów takie, które mogą być uznane za jądra powstających skupień a następnie skupia się wokół nich obiekty (liczba skupień może być z góry znana - tzw. uczenie nadzorowane, lub nie jest znana – uczenie nienadzorowane). W trakcie obliczeń wybrane środki ciężkości (jądra) mogą się zmieniać Dr hab. inż. Barbara Dębska, prof. PWSZ Krosno
16
Metody niehierarchicznej analizy skupień c.d.
3. metody przemieszczeń – podstawą tych metod jest procedura przemieszczeń obiektów miedzy skupieniami w taki sposób aby optymalizować pewna funkcję dyskryminacyjną. W tej metodzie minimalizuje się jednocześnie odległość miedzy skupieniami i odległość miedzy obiektami wewnątrz skupień. 4. metody wyszukiwania największych gęstości – rozpatruje się obiekty jako punkty w przestrzeni wielowymiarowej i poszukuje obszarów o największej gęstości punktów. Skupienia oddzielone są przez obszary o niskiej gęstości. 5. nietypowe pozostałe metody – należą tu metody nierozłącznej analizy Jardine’a i Sibsona dające w rezultacie skupienia nierozłączne, zachodzące częściowo na siebie, metoda Linda wykorzystująca w budowaniu skupień teorię prawdopodo- bieństwa oraz metoda Lamberta i Wiliamsa polegająca na wyodrębnieniu skupień obiektów na podstawie związków zachodzących wewnątrz cech charakteryzujących skupiane obiekty. Dr hab. inż. Barbara Dębska, prof. PWSZ Krosno
17
Metody niezupełnej analizy skupień
Powstały głownie dla celów grupowania zmiennych; sporadycznie są stosowane do grupowania obiektów. Dzielą się na metody analizy bezmacierzowej i macierzowej. Metody analizy bezmacierzowej Najbardziej znana jest metoda twarzy Chernoffa w której obiekty z k wymiarowej przestrzeni są reprezentowane graficznie przez rysunki twarzy. Poszczególne elementy twarzy (np. usta, nos) reprezentują k wymiarów. Określone obiekty (twarze) przydzielane są do odpowiednich skupień na podstawie subiektywnego osadu podobieństwa twarzy (ułożenie ust, oczu, nosa). Metody analizy macierzowej Zalicza się tu głownie skalowanie wielowymiarowe oraz analizę Q-czynnikową, która bazuje na macierzy korelacji wyliczanej dla obiektów przez wszystkie ich cechy. Daje ona wyraźne wyodrębnienie poszczególnych skupień oraz możliwość określenia siły powiązania poszczególnych obiektów z odpowiadającym im skupieniem. Dr hab. inż. Barbara Dębska, prof. PWSZ Krosno
18
METODY HIERARCHICZNEJ ANALIZY SKUPIEŃ
Jednym z podstawowych problemów w interpretacji dużych baz danych jest trudność w określeniu struktury zbiorów tworzących bazę. Rozwiązaniem tego problemu może być znalezienie takich podzbiorów, w całym zbiorze danych, które zgrupują podobne do siebie obiekty. Zbiory te noszą miano skupień lub klasterów. Proces poszukiwania skupień (analiza skupień, ang. cluster analysis), polega na określeniu struktury badanego zbioru tak, by w poszczególnych klastrach (skupieniach) znalazły się obiekty o największym podobieństwie. Najważniejszych etapem algorytmu jest określenie liczby skupień, ustalenie kryteriów podziału całej bazy danych na skupienia (podzbiory) i wyznaczenie granicy pomiędzy nimi. Dr hab. inż. Barbara Dębska, prof. PWSZ Krosno
19
GŁÓWNE CELE HIERARCHICZNEJ ANALIZY SKUPIEŃ:
- zdefiniowanie miary podobieństwa pomiędzy obiektami i skupieniami, - określenie liczby skupień w zbiorze i przypisanie do nich obiektów, - stwierdzenie, czy istnieje hierarchiczna zależność pomiędzy skupieniami, - określenie, czy skupienie mogą się częściowo pokrywać. W analizie skupień wykorzystuje się różne metryki do obliczania odległości, oraz hierarchiczne i nie hierarchiczne metody skupień. Dr hab. inż. Barbara Dębska, prof. PWSZ Krosno
20
HIERARCHICZNA METODA ANALIZY SKUPIEŃ
W metodzie tej pozyskana wiedza o podobieństwie obiektów służy do budowy drzewa skupień (dendrogramu, dendrytu), zgodnie z poniższym rysunkiem: Liście KORZEŃ Fragment drzewa skupień (dendrogramu) Dr hab. inż. Barbara Dębska, prof. PWSZ Krosno
21
d. powtórzenie kroków b i c;
Korzeń obejmuje wszystkie przykłady jako jeden klaster (skupienie), natomiast liście reprezentują poszczególne obiekty. Są dwa możliwe sposoby budowania drzewa: 1. poprzez tzw. aglomerację, czyli łączenie. Metoda ta polega na tworzeniu drzewa zaczynając od liści. Wyróżnia się tu następujące kroki: a. każdy obiekt stanowi jednoelementowy klaster (otrzymujemy n – skupień), w ten sposób powstaje macierz odległości dik, b. poszukiwanie w macierzy odległości pary obiektów położonych najbliżej i połączenie ich w jeden klaster, c. obliczanie odległości pomiędzy środkami ciężkości nowo powstałych klasterów, d. powtórzenie kroków b i c; poprzez tzw. dzielenie korzenia (reprezentującego cały zbiór obiektów) na coraz mniejsze podzbiory kończące się na liściach (klastery jednoelementowe ). Dr hab. inż. Barbara Dębska, prof. PWSZ Krosno
22
Rys. a. pokazuje zasadę aglomeracji liści, natomiast rys. b
Rys. a. pokazuje zasadę aglomeracji liści, natomiast rys. b. dzielenie korzenia: Przykłady dendrogramów w hierarchicznej metodzie analizy skupień: Q1, ... , Q6 – skupiane obiekty S1 , ... , S5 - poziomy skupienia obiektów. Każdy klaster jest dzielony na podzbiory tak, aby średnia odległość była jak największa. Dr hab. inż. Barbara Dębska, prof. PWSZ Krosno
23
MATEMATYCZNY OPIS METOD SAHN
Metody SAHN czyli metody Sekwencyjne, Aglomeracyjne, Hierarchiczne, dające Nie pokrywające się skupienia obiektów, dostarczają użytkownikowi dużo informacji o strukturze zbioru przy minimalnej ingerencji w dane wejściowe. Sekwencyjność tej metody polega na wielokrotnym generowaniu nowych klastrów na kolejnych poziomach skupiania za pomocą algorytmu skupiania. Aglomeracja oznacza grupowanie pojedynczych obiektów w klastery na podstawie wartości funkcji podobieństwa, co oznacza że obiekty bardziej podobne do siebie zostaną szybciej ze sobą połączone. Hierarchiczność metody dotyczy prezentacji otrzymanych wyników, które najczęściej przedstawione są w postaci drzewa skupień (dendrogramu). Wyznaczone hierarchicznie pozwala na dokładne określenie położenia skupień względem siebie. Struktura drzewa jest uporządkowana według zmniejszającego się podobieństwa obiektów lub rosnącej odległości między nimi. Metody hierarchiczne są stosowane wówczas, gdy wynik skupiania obiektów ma obrazować pełną, w niczym nie uproszczoną, wersję struktury zbioru. Dr hab. inż. Barbara Dębska, prof. PWSZ Krosno
24
Obliczenie macierzy odległości można przeprowadzić według metryki:
Punktem wyjścia w każdej metodzie SAHN jest macierz odległości (niepodobieństwa) między obiektami, do obliczenia której wykorzystuje się różne miary odległości (metryki). Obliczenie macierzy odległości można przeprowadzić według metryki: 1. euklidesowej (Euclidean), 2. miejskiej (City – Block), 3. Czebyszewa (Tshebyshev’s) . Dr hab. inż. Barbara Dębska, prof. PWSZ Krosno
25
Wszystkie metody SAHN działają według jednego ogólnego algorytmu, w którym wyróżniamy trzy kroki:
- krok pierwszy: analiza macierzy odległości D z wybraniem najbliższej sobie pary skupień (si, sj), - krok drugi: połączenie skupień si oraz sj w jedno nowe zaglomerowane skupienie sa, - krok trzeci: modyfikacja macierzy odległości D z uwzględnieniem nowopowstałego skupienia sa. Zmianę tą dokonuje się zastępując j – ty wiersz i j – tą kolumnę w macierzy D nowymi odległościami pomiędzy powstałym w kroku drugim skupieniem sa, a wszystkimi pozostałymi skupieniami, a zatem dokonywana jest tutaj redukcja macierzy D o jeden wymiar. Wyżej wymienione kroki są prowadzone tak długo, aż w macierzy odległości D występować będzie tylko jedna wartość charakteryzująca odległość pomiędzy skupieniami. Kończąc skupianie, w ostatniej pętli należy wykonać tylko kroki: jeden i dwa. Dr hab. inż. Barbara Dębska, prof. PWSZ Krosno
26
1. metoda prostych połączeń, 2. metoda średnich połączeń,
Algorytm SAHN umożliwia użytkownikowi przeprowadzenie analizy skupień za pomocą jednej z poniżej przedstawionych metod: 1. metoda prostych połączeń, 2. metoda średnich połączeń, 3. metoda średnich połączeń ważonych, 4. metoda zupełnych połączeń, 5. metoda środków ciężkości, 6. metoda ważonych środków ciężkości, 7. metoda minimalnej wariancji, oraz 8. strategia elastyczna SAHN. Poszczególne metody SAHN różnią się w zasadzie jedynie krokiem trzecim algorytmu skupiania, tzn. metodą użytą do modyfikacji macierzy odległości. Dr hab. inż. Barbara Dębska, prof. PWSZ Krosno
27
DEFINICJA LANCE’A I WILLIAMS’A LICZENIA ODLEGŁOŚCI:
gdzie: d (…,…) oznacza odległość (podobieństwo) pomiędzy dwoma skupieniami, si, sj, sk oznaczają skupienia i, j oraz k, sa oznacza nowe zaglomerowane skupienie powstałe z połączenia skupień si oraz sj, i, j, , - oznaczają parametry charakteryzujące metody skupiania. Dr hab. inż. Barbara Dębska, prof. PWSZ Krosno
28
Tabela wartości i, j, , dla poszczególnych metod skupiania:
Dr hab. inż. Barbara Dębska, prof. PWSZ Krosno
29
SCANKEE-VVT : Wynik analizy skupień
Dr hab. inż. Barbara Dębska, prof. PWSZ Krosno
30
SCANKEE-VVT : Pełny dendrogram
Dr hab. inż. Barbara Dębska, prof. PWSZ Krosno
31
SCANKEE-VVT: Wynik klasyfikacji
Dr hab. inż. Barbara Dębska, prof. PWSZ Krosno
32
SCANKEE-VVT: Wynik predykcji
Dr hab. inż. Barbara Dębska, prof. PWSZ Krosno
33
Dziękuję za uwagę Dr hab. inż. Barbara Dębska, prof. PWSZ Krosno
Podobne prezentacje
© 2024 SlidePlayer.pl Inc.
All rights reserved.