Pobierz prezentację
Pobieranie prezentacji. Proszę czekać
1
VII EKSPLORACJA DANYCH
Grupowanie danych: definicja i cel Grupowanie oznacza grupowanie rekordów, obserwacji lub przypadków w klasy podobnych obiektów. Grupa jest zbiorem rekordów, które są podobne do siebie nawzajem i niepodobne do rekordów z innych grup. Grupowanie różni się od klasyfikacji tym, że w przypadku grupowania nie ma zmiennej celu. Zadanie grupowania nie próbuje klasyfikować, szacować lub przewidywać wartości zmiennej celu. Zamiast tego, algorytm grupowania próbuje podzielić cały zbiór danych w stosunkowo zgodne podgrupy lub grupy, przy czym podobieństwo rekordów wewnątrz grup jest maksymalizowane, a podobieństwo do rekordów spoza grupy minimalizowane.
2
VII EKSPLORACJA DANYCH
Grupowanie danych: definicja i cel Grupowanie jest często wykorzystywane jako krok wstępny do procesu eksploracji danych, z wynikowymi grupami użytymi jako dane wejściowe do innej techniki, takiej jak sieci neuronowe. Z powodu dużego rozmiaru wielu baz danych, często jest korzystnie najpierw przeprowadzić analizę skupień, aby zredukować przestrzeń przeszukiwań dla algorytmów.
3
VII EKSPLORACJA DANYCH
Grupowanie danych: definicja i cel Cel grupowania: poznanie rozkładu przykładów (danych) wyróżnienie przypadków, tych, które można uznać za typowe i tych, które za wyjątki znajdowanie naturalnego podziału danych na istotne podgrupy dekompozycja danych na części, które są łatwiejsze do opisania – bardziej jednolite uzupełnianie brakującej informacji
4
VII EKSPLORACJA DANYCH
Grupowanie danych: definicja i cel Przykłady zadań grupowania w badaniach: redukcję wymiarów, gdy zbiór ma setki atrybutów grupowanie ekspresji genów, gdzie bardzo dużo genów może wykazywać podobne zachowanie Przykłady zadań grupowania w biznesie: namierzenie grupy potencjalnych klientów pewnego produktu z niszy rynkowej wyprodukowanego przez małą firmę z małym budżetem reklamowym podział zachowań finansowych na korzystne i niepewne w celu kontroli obliczeń
5
VII EKSPLORACJA DANYCH
Grupowanie danych: definicja i cel Przykłady zadań grupowania w marketingu: identyfikacja grup ubezpieczonych w towarzystwach ubezpieczeniowych generujących wysokie koszty napraw Przykłady zadań grupowania w geodezji i kartografii: identyfikacja obszarów o podobnych glebach na podstawie zdjęć z obserwacji Ziemi lokalizacje epicentrów trzęsień Ziemi, na podstawie zaobserwowanych defektów kontynentów rozpoznanie potrzeb rozwojowych miasta, na podstawie grupowania domów o określonej wartości, lokalizacji, itp.
6
VII EKSPLORACJA DANYCH
Grupowanie danych: metody Metody grupowania: metody hierarchiczne, polegają na łączeniu pojedynczych elementów, wg założonego kryterium odległości (elementy podobne) metody niehierarchiczne, polegają na wstępnym podzieleniu zbioru na określoną liczbę klas, a następnie modyfikowaniu podziału (przez przenoszenie elementów z grupy do grupy) prowadzącym do poprawy tego podziału
7
VII EKSPLORACJA DANYCH
Grupowanie danych: metody hierarchiczne Uogólniony algorytm metod hierarchicznych: początkowo każda obserwacja traktowana jest jako osobne skupienie następnie tworzona jest macierz odległości pomiędzy kolejnymi obserwacjami określa się odległości pomiędzy poszczególnymi skupieniami i na ich podstawie tworzy się nowe skupienia obiektów wyniki przedstawiane są za pomocą drzewka połączeń
8
VII EKSPLORACJA DANYCH
Grupowanie danych: metody hierarchiczne Wybór metody aglomeracji: metoda najbliższego sąsiada metoda najdalszego sąsiada metoda średniej grupowej metoda środka ciężkości metoda mediany (ważonych środków ciężkości)
9
VII EKSPLORACJA DANYCH
Grupowanie danych: metody hierarchiczne Wady metod hierarchicznych brak oczywistego kryterium stopu dla uzyskania względnie jednorodnych skupień otrzymane raz skupienie nie może być rozłączone, czyli ewentualny wcześniejszy błąd nie może być skorygowany w metodach aglomeracyjnych nie jest znana z góry ani liczba grup (skupień) ani liczba obiektów w poszczególnych grupach
10
VII EKSPLORACJA DANYCH
Grupowanie danych: algorytm k - średnich Algorytm k – średnich: procedura postępowania wybieramy losowo tyle punktów w przestrzeni, na ile grup dzielimy zbiór danych obliczamy odległości wszystkich elementów zbioru od wylosowanych punktów grupujemy zgodnie z bliskością elementów zbioru od punktów początkowych obliczamy centroidy grup jako średnie elementów grupy powtarzamy punkty 2 i 3 aż do osiągnięcia stabilności
11
VII EKSPLORACJA DANYCH
Grupowanie danych: algorytm k - średnich X Y 1 2 3 4 5
12
VII EKSPLORACJA DANYCH
Grupowanie danych: algorytm k - średnich Wskaźnik jakości algorytmu k - średnich ZPG – zmienność pomiędzy grupami ZWG – zmienność wewnątrz grupy W = ZPG ZWG
13
VII EKSPLORACJA DANYCH
Grupowanie danych: algorytm k - średnich Wskaźnik jakości algorytmu k - średnich W = ZPG ZWG m12 m11 m21 m13 c1 m14 m15 c2 ZPG = d (c1, c2) ZWG = Σ Σ d(mij, ci) i=1 j k m26
14
VII EKSPLORACJA DANYCH
Grupowanie danych: algorytm k - średnich Zalety algorytmu k - średnich sprawny – η(nkt), gdzie n jest liczbą obserwacji, k jest liczbą klasterów, a t jest liczbą iteracji, zazwyczaj k, t << n obliczenia kończą się po osiągnięciu minimum lokalnego łatwy w zaprogramowaniu
15
VII EKSPLORACJA DANYCH
Grupowanie danych: algorytm k - średnich Wady algorytmu k - średnich możliwość stosowania jedynie do danych, dla których możliwe jest obliczenie średnich; wyłącza to zbiory z danymi kategorycznymi konieczność wstępnego określenia liczby k (liczby grup) przed rozpoczęciem modelowania niezdolność do radzenia sobie z danymi zaszumionymi i z danymi odstającymi
16
VII EKSPLORACJA DANYCH
Grupowanie danych: algorytm k - średnich Wady algorytmu k - średnich nie do zastosowania w przypadku, gdy modelowana grupa ma kształt wklęsły
17
VII EKSPLORACJA DANYCH
Grupowanie danych: definicja i cel
18
VII EKSPLORACJA DANYCH
Grupowanie danych: zastosowanie
19
VII EKSPLORACJA DANYCH
Grupowanie danych: zastosowanie Nr wyt C % Mn % Si % P % S % Cr % Ni % Cu % Mg % Rm A5 HB 1279,1 3,84 0,17 2,50 0,05 0,01 0,04 0,02 0,06 0,036 747 11,4 248 2039,1 3,82 0,09 0,057 0,008 0,00 0,03 0,037 382 7,1 156 2036,1 3,76 0,11 2,54 0,011 0,040 490 29,0 159 2036,2 3,81 0,12 2,58 0,059 0,014 0,041 średni 3,78 0,15 2,53 460,9 20,4 163,7 0114,1 3,71 2,43 0,07 459 20,7 163 1063,1 3,87 0,14 0,035 1063,2 3,86 2,49 0,039 1232,1 0,18 2,55 0,032 1232,2 3,79 2,56 0,034
20
VII EKSPLORACJA DANYCH
Grupowanie danych: podsumowanie Uwaga: niezależnie od zastosowanej metody wszystkie podziały będą się mieścić pomiędzy dwoma skrajnymi przypadkami: skrajny przypadek: wszystkie obiekty rozkładają się tak, że uzyskujemy skupienia jednoelementowe (zbiór n elementów dzielony jest na n skupień jednoelementowych) skrajny przypadek: zbiór elementów jest tak jednorodny, że nie możliwe jest rozłożenie jego na podzbiory, tzn. otrzymujemy jedno skupienie n-elementowe
Podobne prezentacje
© 2024 SlidePlayer.pl Inc.
All rights reserved.