VII EKSPLORACJA DANYCH

Slides:



Advertisements
Podobne prezentacje
Klasyfikacja danych Metoda hierarchiczne
Advertisements

Układy eksperymentalne analizy wariancji. Analiza wariancji Planowanie eksperymentu Analiza jednoczynnikowa, p poziomów czynnika, dla każdego obiektu.
Wprowadzenie do budowy usług informacyjnych
Marcin Bogusiak Paweł Pilewski
Wprowadzenie do optymalizacji wielokryterialnej.
Inteligencja Obliczeniowa Metody oparte na podobieństwie do wzorców.
Metody rozwiązywania układów równań liniowych
Zadanie z dekompozycji
Analiza wariancji Marcin Zajenkowski. Badania eksperymentalne ANOVA najczęściej do eksperymentów Porównanie wyników z 2 grup lub więcej Zmienna niezależna.
Wskaźniki analizy technicznej
Metody wnioskowania na podstawie podprób
CLUSTERING Metody grupowania danych Plan wykładu Wprowadzenie Dziedziny zastosowania Co to jest problem klastrowania? Problem wyszukiwania optymalnych.
Miary jednej cechy Miary poziomu Miary dyspersji Miary asymetrii (skośności)
Krzysztof Jurek Statystyka Spotkanie 4. Miary zmienności m ó wią na ile wyniki są rozproszone na konkretne jednostki, pokazują na ile wyniki odbiegają
Dr inż. Bożena Mielczarek
Analiza wariancji Analiza wariancji (ANOVA) stanowi rozszerzenie testu t-Studenta w przypadku porównywanie większej liczby grup. Podział na grupy (czyli.
Techniki chemometryczne w ocenie próbek środowiskowych i biologicznych
Statystyka w doświadczalnictwie
Ulepszenia metody Eigenfaces
Rozpoznawanie Twarzy i Systemy Biometryczne, 2005/2006
Zastosowanie programu SYBYL do wygładzania przybliżonych modeli białkowych SEKWENCJA AMINOKWASOWA MODELOWANIE METODĄ DYNAMIKI MONTE CARLO NA TRÓJWYMIAROWEJ.
Jakość sieci geodezyjnych. Pomiary wykonane z największą starannością, nie dostarczają nam prawdziwej wartości mierzonej wielkości, lecz są zwykle obarczone.
Algorytm Rochio’a.
Inteligencja Obliczeniowa Klasteryzacja i uczenie bez nadzoru.
Metody Sztucznej Inteligencji w Sterowaniu 2009/2010Optymalizacja miary efektywności działania sztucznych sieci neuronowych Dr hab. inż. Kazimierz Duzinkiewicz,
Wykład 4 Rozkład próbkowy dla średniej z rozkładu normalnego
Paweł Kramarski Seminarium Dyplomowe Magisterskie 2
Grupowanie.
Grupowanie Wprowadzanie Definicja problemu
Alfred Stach Instytut Paleogeografii i Geoekologii
Linear Methods of Classification
Additive Models, Trees, and Related Methods
Komputerowa analiza sieci genowych (GRN)
Komputerowa analiza sieci genowych (GRN) Agnieszka Marmołowska Jacek Ławrynowicz Promotor: prof. Krzysztof Giaro.
Metody Symulacyjne w Telekomunikacji (MEST) Wykład 6/7: Analiza statystyczna wyników symulacyjnych  Dr inż. Halina Tarasiuk
Sztuczne Sieci Neuronowe
Analiza współzależności cech statystycznych
Elementy Rachunku Prawdopodobieństwa i Statystyki
Rynek usług medycznych
formalnie: Uczenie nienadzorowane
Detekcja twarzy w obrazach cyfrowych
Techniki eksploracji danych
GŁOSOWA ŁĄCZNOŚĆ Z KOMPUTEREM
Systemy wspomagania decyzji
Modelowanie i Identyfikacja 2011/2012 Metoda propagacji wstecznej Dr hab. inż. Kazimierz Duzinkiewicz, Katedra Inżynierii Systemów Sterowania 1 Warstwowe.
Modelowanie i identyfikacja 2010/2011Optymalizacja miary efektywności działania sztucznych sieci neuronowych Dr hab. inż. Kazimierz Duzinkiewicz, Katedra.
II EKSPLORACJA DANYCH Przygotowanie danych: rodzaje danych
VI EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja
IV EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja
Dylematy budowy struktury organizacyjnej
Instrukcje iteracyjne
Seminarium licencjackie Beata Kapuścińska
Wyszukiwanie maksimum funkcji za pomocą mrówki Pachycondyla Apicalis.
Wnioskowanie statystyczne
Metody matematyczne w inżynierii chemicznej
ZASTOSOWANIE KOMPUTEROWEGO WSPOMAGANIA W ZARZĄDZANIU JAKOŚCIĄ - METODY FMEA I QFD Politechnika Śląska, Wydział Organizacji i Zarządzania, Katedra Zarządzania.
JAKOŚĆ TECHNICZNA WĘGLA
1 Obserwacje... Obserwacja polega na ukierunkowanym, zamierzonym, celowym, systematycznym i prowadzonym według ustalonego planu postrzeganiu badanych obiektów.
Model ekonometryczny Jacek Szanduła.
Algorytmy. Co to jest algorytm? Przepis prowadzący do rozwiązania zadania.
Parametry rozkładów Metodologia badań w naukach behawioralnych II.
Wizualizacja algorytmu grupowania k-średnich Maciej Łakomy Promotor: Dr hab. prof. WWSI Michał Grabowski.
Dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii Metody klasyfikacji obiektów 1.
Koło Naukowe Metod Ilościowych
Systemy neuronowo – rozmyte
Co do tej pory robiliśmy:
Metody klasyfikacyjne
Dr Dorota Rozmus Katedra Analiz Gospodarczych i Finansowych
Jakość sieci geodezyjnych
Programowanie sieciowe Laboratorium 4
Zapis prezentacji:

VII EKSPLORACJA DANYCH Grupowanie danych: definicja i cel Grupowanie oznacza grupowanie rekordów, obserwacji lub przypadków w klasy podobnych obiektów. Grupa jest zbiorem rekordów, które są podobne do siebie nawzajem i niepodobne do rekordów z innych grup. Grupowanie różni się od klasyfikacji tym, że w przypadku grupowania nie ma zmiennej celu. Zadanie grupowania nie próbuje klasyfikować, szacować lub przewidywać wartości zmiennej celu. Zamiast tego, algorytm grupowania próbuje podzielić cały zbiór danych w stosunkowo zgodne podgrupy lub grupy, przy czym podobieństwo rekordów wewnątrz grup jest maksymalizowane, a podobieństwo do rekordów spoza grupy minimalizowane.

VII EKSPLORACJA DANYCH Grupowanie danych: definicja i cel Grupowanie jest często wykorzystywane jako krok wstępny do procesu eksploracji danych, z wynikowymi grupami użytymi jako dane wejściowe do innej techniki, takiej jak sieci neuronowe. Z powodu dużego rozmiaru wielu baz danych, często jest korzystnie najpierw przeprowadzić analizę skupień, aby zredukować przestrzeń przeszukiwań dla algorytmów.

VII EKSPLORACJA DANYCH Grupowanie danych: definicja i cel Cel grupowania: poznanie rozkładu przykładów (danych) wyróżnienie przypadków, tych, które można uznać za typowe i tych, które za wyjątki znajdowanie naturalnego podziału danych na istotne podgrupy dekompozycja danych na części, które są łatwiejsze do opisania – bardziej jednolite uzupełnianie brakującej informacji

VII EKSPLORACJA DANYCH Grupowanie danych: definicja i cel Przykłady zadań grupowania w badaniach: redukcję wymiarów, gdy zbiór ma setki atrybutów grupowanie ekspresji genów, gdzie bardzo dużo genów może wykazywać podobne zachowanie Przykłady zadań grupowania w biznesie: namierzenie grupy potencjalnych klientów pewnego produktu z niszy rynkowej wyprodukowanego przez małą firmę z małym budżetem reklamowym podział zachowań finansowych na korzystne i niepewne w celu kontroli obliczeń

VII EKSPLORACJA DANYCH Grupowanie danych: definicja i cel Przykłady zadań grupowania w marketingu: identyfikacja grup ubezpieczonych w towarzystwach ubezpieczeniowych generujących wysokie koszty napraw Przykłady zadań grupowania w geodezji i kartografii: identyfikacja obszarów o podobnych glebach na podstawie zdjęć z obserwacji Ziemi lokalizacje epicentrów trzęsień Ziemi, na podstawie zaobserwowanych defektów kontynentów rozpoznanie potrzeb rozwojowych miasta, na podstawie grupowania domów o określonej wartości, lokalizacji, itp.

VII EKSPLORACJA DANYCH Grupowanie danych: metody Metody grupowania: metody hierarchiczne, polegają na łączeniu pojedynczych elementów, wg założonego kryterium odległości (elementy podobne) metody niehierarchiczne, polegają na wstępnym podzieleniu zbioru na określoną liczbę klas, a następnie modyfikowaniu podziału (przez przenoszenie elementów z grupy do grupy) prowadzącym do poprawy tego podziału

VII EKSPLORACJA DANYCH Grupowanie danych: metody hierarchiczne Uogólniony algorytm metod hierarchicznych: początkowo każda obserwacja traktowana jest jako osobne skupienie następnie tworzona jest macierz odległości pomiędzy kolejnymi obserwacjami określa się odległości pomiędzy poszczególnymi skupieniami i na ich podstawie tworzy się nowe skupienia obiektów wyniki przedstawiane są za pomocą drzewka połączeń

VII EKSPLORACJA DANYCH Grupowanie danych: metody hierarchiczne Wybór metody aglomeracji: metoda najbliższego sąsiada metoda najdalszego sąsiada metoda średniej grupowej metoda środka ciężkości metoda mediany (ważonych środków ciężkości)

VII EKSPLORACJA DANYCH Grupowanie danych: metody hierarchiczne Wady metod hierarchicznych brak oczywistego kryterium stopu dla uzyskania względnie jednorodnych skupień otrzymane raz skupienie nie może być rozłączone, czyli ewentualny wcześniejszy błąd nie może być skorygowany w metodach aglomeracyjnych nie jest znana z góry ani liczba grup (skupień) ani liczba obiektów w poszczególnych grupach

VII EKSPLORACJA DANYCH Grupowanie danych: algorytm k - średnich Algorytm k – średnich: procedura postępowania wybieramy losowo tyle punktów w przestrzeni, na ile grup dzielimy zbiór danych obliczamy odległości wszystkich elementów zbioru od wylosowanych punktów grupujemy zgodnie z bliskością elementów zbioru od punktów początkowych obliczamy centroidy grup jako średnie elementów grupy powtarzamy punkty 2 i 3 aż do osiągnięcia stabilności

VII EKSPLORACJA DANYCH Grupowanie danych: algorytm k - średnich X Y 1 2 3 4 5

VII EKSPLORACJA DANYCH Grupowanie danych: algorytm k - średnich Wskaźnik jakości algorytmu k - średnich ZPG – zmienność pomiędzy grupami ZWG – zmienność wewnątrz grupy W = ZPG ZWG

VII EKSPLORACJA DANYCH Grupowanie danych: algorytm k - średnich Wskaźnik jakości algorytmu k - średnich W = ZPG ZWG m12 m11 m21 m13 c1 m14 m15 c2 ZPG = d (c1, c2) ZWG = Σ Σ d(mij, ci) i=1 j k m26

VII EKSPLORACJA DANYCH Grupowanie danych: algorytm k - średnich Zalety algorytmu k - średnich sprawny – η(nkt), gdzie n jest liczbą obserwacji, k jest liczbą klasterów, a t jest liczbą iteracji, zazwyczaj k, t << n obliczenia kończą się po osiągnięciu minimum lokalnego łatwy w zaprogramowaniu

VII EKSPLORACJA DANYCH Grupowanie danych: algorytm k - średnich Wady algorytmu k - średnich możliwość stosowania jedynie do danych, dla których możliwe jest obliczenie średnich; wyłącza to zbiory z danymi kategorycznymi konieczność wstępnego określenia liczby k (liczby grup) przed rozpoczęciem modelowania niezdolność do radzenia sobie z danymi zaszumionymi i z danymi odstającymi

VII EKSPLORACJA DANYCH Grupowanie danych: algorytm k - średnich Wady algorytmu k - średnich nie do zastosowania w przypadku, gdy modelowana grupa ma kształt wklęsły

VII EKSPLORACJA DANYCH Grupowanie danych: definicja i cel

VII EKSPLORACJA DANYCH Grupowanie danych: zastosowanie

VII EKSPLORACJA DANYCH Grupowanie danych: zastosowanie Nr wyt C % Mn % Si % P % S % Cr % Ni % Cu % Mg % Rm A5 HB 1279,1 3,84 0,17 2,50 0,05 0,01 0,04 0,02 0,06 0,036 747 11,4 248 2039,1 3,82 0,09 0,057 0,008 0,00 0,03 0,037 382 7,1 156 2036,1 3,76 0,11 2,54 0,011 0,040 490 29,0 159 2036,2 3,81 0,12 2,58 0,059 0,014 0,041 średni 3,78 0,15 2,53 460,9 20,4 163,7 0114,1 3,71 2,43 0,07 459 20,7 163 1063,1 3,87 0,14 0,035 1063,2 3,86 2,49 0,039 1232,1 0,18 2,55 0,032 1232,2 3,79 2,56 0,034

VII EKSPLORACJA DANYCH Grupowanie danych: podsumowanie Uwaga: niezależnie od zastosowanej metody wszystkie podziały będą się mieścić pomiędzy dwoma skrajnymi przypadkami: skrajny przypadek: wszystkie obiekty rozkładają się tak, że uzyskujemy skupienia jednoelementowe (zbiór n elementów dzielony jest na n skupień jednoelementowych) skrajny przypadek: zbiór elementów jest tak jednorodny, że nie możliwe jest rozłożenie jego na podzbiory, tzn. otrzymujemy jedno skupienie n-elementowe