Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

Grupowanie danych: definicja i cel Grupowanie oznacza grupowanie rekordów, obserwacji lub przypadków w klasy podobnych obiektów. Grupa jest zbiorem rekordów,

Podobne prezentacje


Prezentacja na temat: "Grupowanie danych: definicja i cel Grupowanie oznacza grupowanie rekordów, obserwacji lub przypadków w klasy podobnych obiektów. Grupa jest zbiorem rekordów,"— Zapis prezentacji:

1 Grupowanie danych: definicja i cel Grupowanie oznacza grupowanie rekordów, obserwacji lub przypadków w klasy podobnych obiektów. Grupa jest zbiorem rekordów, które są podobne do siebie nawzajem i niepodobne do rekordów z innych grup. Grupowanie różni się od klasyfikacji tym, że w przypadku grupowania nie ma zmiennej celu. Zadanie grupowania nie próbuje klasyfikować, szacować lub przewidywać wartości zmiennej celu. Zamiast tego, algorytm grupowania próbuje podzielić cały zbiór danych w stosunkowo zgodne podgrupy lub grupy, przy czym podobieństwo rekordów wewnątrz grup jest maksymalizowane, a podobieństwo do rekordów spoza grupy minimalizowane. VII EKSPLORACJA DANYCH

2 Grupowanie jest często wykorzystywane jako krok wstępny do procesu eksploracji danych, z wynikowymi grupami użytymi jako dane wejściowe do innej techniki, takiej jak sieci neuronowe. Z powodu dużego rozmiaru wielu baz danych, często jest korzystnie najpierw przeprowadzić analizę skupień, aby zredukować przestrzeń przeszukiwań dla algorytmów. Grupowanie danych: definicja i cel VII EKSPLORACJA DANYCH

3 Grupowanie danych: definicja i cel Cel grupowania: znajdowanie naturalnego podziału danych na istotne podgrupy dekompozycja danych na części, które są łatwiejsze do opisania – bardziej jednolite poznanie rozkładu przykładów (danych) wyróżnienie przypadków, tych, które można uznać za typowe i tych, które za wyjątki VII EKSPLORACJA DANYCH uzupełnianie brakującej informacji

4 Grupowanie danych: definicja i cel Przykłady zadań grupowania w badaniach: Przykłady zadań grupowania w biznesie: namierzenie grupy potencjalnych klientów pewnego produktu z niszy rynkowej wyprodukowanego przez małą firmę z małym budżetem reklamowym podział zachowań finansowych na korzystne i niepewne w celu kontroli obliczeń redukcję wymiarów, gdy zbiór ma setki atrybutów grupowanie ekspresji genów, gdzie bardzo dużo genów może wykazywać podobne zachowanie VII EKSPLORACJA DANYCH

5 Grupowanie danych: definicja i cel Przykłady zadań grupowania w marketingu: Przykłady zadań grupowania w geodezji i kartografii: identyfikacja obszarów o podobnych glebach na podstawie zdjęć z obserwacji Ziemi lokalizacje epicentrów trzęsień Ziemi, na podstawie zaobserwowanych defektów kontynentów identyfikacja grup ubezpieczonych w towarzystwach ubezpieczeniowych generujących wysokie koszty napraw VII EKSPLORACJA DANYCH rozpoznanie potrzeb rozwojowych miasta, na podstawie grupowania domów o określonej wartości, lokalizacji, itp.

6 Grupowanie danych: metody VII EKSPLORACJA DANYCH metody hierarchiczne, polegają na łączeniu pojedynczych elementów, wg założonego kryterium odległości (elementy podobne) metody niehierarchiczne, polegają na wstępnym podzieleniu zbioru na określoną liczbę klas, a następnie modyfikowaniu podziału (przez przenoszenie elementów z grupy do grupy) prowadzącym do poprawy tego podziału Metody grupowania:

7 Grupowanie danych: metody hierarchiczne VII EKSPLORACJA DANYCH początkowo każda obserwacja traktowana jest jako osobne skupienie wyniki przedstawiane są za pomocą drzewka połączeń Uogólniony algorytm metod hierarchicznych: następnie tworzona jest macierz odległości pomiędzy kolejnymi obserwacjami określa się odległości pomiędzy poszczególnymi skupieniami i na ich podstawie tworzy się nowe skupienia obiektów

8 Grupowanie danych: metody hierarchiczne VII EKSPLORACJA DANYCH metoda najbliższego sąsiada metoda środka ciężkości Wybór metody aglomeracji: metoda najdalszego sąsiada metoda średniej grupowej metoda mediany (ważonych środków ciężkości)

9 Grupowanie danych: metody hierarchiczne VII EKSPLORACJA DANYCH Wady metod hierarchicznych brak oczywistego kryterium stopu dla uzyskania względnie jednorodnych skupień otrzymane raz skupienie nie może być rozłączone, czyli ewentualny wcześniejszy błąd nie może być skorygowany w metodach aglomeracyjnych nie jest znana z góry ani liczba grup (skupień) ani liczba obiektów w poszczególnych grupach

10 Grupowanie danych: algorytm k - średnich VII EKSPLORACJA DANYCH Algorytm k – średnich:procedura postępowania wybieramy losowo tyle punktów w przestrzeni, na ile grup dzielimy zbiór danych obliczamy odległości wszystkich elementów zbioru od wylosowanych punktów grupujemy zgodnie z bliskością elementów zbioru od punktów początkowych obliczamy centroidy grup jako średnie elementów grupy powtarzamy punkty 2 i 3 aż do osiągnięcia stabilności

11 Grupowanie danych: algorytm k - średnich XY VII EKSPLORACJA DANYCH

12 Grupowanie danych: algorytm k - średnich VII EKSPLORACJA DANYCH Wskaźnik jakości algorytmu k - średnich ZPG – zmienność pomiędzy grupami ZWG – zmienność wewnątrz grupy W = ZPG ZWG

13 Grupowanie danych: algorytm k - średnich VII EKSPLORACJA DANYCH Wskaźnik jakości algorytmu k - średnich W = ZPG ZWG c1c1 c2c2 ZPG = d (c 1, c 2 ) ZWG = Σ Σ d(m ij, c i ) i=1 j k m 15 m 14 m 13 m 12 m 11 m 21 m 26

14 Grupowanie danych: algorytm k - średnich VII EKSPLORACJA DANYCH Zalety algorytmu k - średnich sprawny – η(nkt), gdzie n jest liczbą obserwacji, k jest liczbą klasterów, a t jest liczbą iteracji, zazwyczaj k, t << n obliczenia kończą się po osiągnięciu minimum lokalnego łatwy w zaprogramowaniu

15 Grupowanie danych: algorytm k - średnich VII EKSPLORACJA DANYCH Wady algorytmu k - średnich możliwość stosowania jedynie do danych, dla których możliwe jest obliczenie średnich; wyłącza to zbiory z danymi kategorycznymi konieczność wstępnego określenia liczby k (liczby grup) przed rozpoczęciem modelowania niezdolność do radzenia sobie z danymi zaszumionymi i z danymi odstającymi

16 Wady algorytmu k - średnich Grupowanie danych: algorytm k - średnich VII EKSPLORACJA DANYCH nie do zastosowania w przypadku, gdy modelowana grupa ma kształt wklęsły

17 Grupowanie danych: definicja i cel VII EKSPLORACJA DANYCH

18 Grupowanie danych: zastosowanie VII EKSPLORACJA DANYCH

19 Grupowanie danych: zastosowanie VII EKSPLORACJA DANYCH Nr wytC %Mn %Si %P %S %Cr %Ni %Cu %Mg %RmA5HB 1279,13,840,172,500,050,010,040,020,060, , ,13,820,092,500,0570,0080,020,000,030, , ,13,760,112,540,0570,0110,030,000,040, , ,23,810,122,580,0590,0140,030,010,040, ,0159 średni3,780,152,530,050,010,030,010,060,036460,920,4163,7 0114,13,710,152,430,070,010,020,010,110, , ,13,870,142,540,050,010,020,010,040, , ,23,860,122,490,050,010,020,010,040, , ,13,760,182,550,040,010,040,020,170, , ,23,790,182,560,040,010,040,020,170, ,7156

20 Grupowanie danych: podsumowanie VII EKSPLORACJA DANYCH Uwaga: niezależnie od zastosowanej metody wszystkie podziały będą się mieścić pomiędzy dwoma skrajnymi przypadkami: skrajny przypadek: wszystkie obiekty rozkładają się tak, że uzyskujemy skupienia jednoelementowe (zbiór n elementów dzielony jest na n skupień jednoelementowych) skrajny przypadek: zbiór elementów jest tak jednorodny, że nie możliwe jest rozłożenie jego na podzbiory, tzn. otrzymujemy jedno skupienie n-elementowe


Pobierz ppt "Grupowanie danych: definicja i cel Grupowanie oznacza grupowanie rekordów, obserwacji lub przypadków w klasy podobnych obiektów. Grupa jest zbiorem rekordów,"

Podobne prezentacje


Reklamy Google