Dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii Metody klasyfikacji obiektów 1.

Slides:



Advertisements
Podobne prezentacje
Regresja i korelacja materiały dydaktyczne.
Advertisements

PODZIAŁ STATYSTYKI STATYSTYKA STATYSTYKA MATEMATYCZNA STATYSTYKA
Klasyfikacja danych Metoda hierarchiczne
Wprowadzenie do budowy usług informacyjnych
W dalszej części zajęć wyróżniać będziemy następujące
Analiza współzależności zjawisk
IV Tutorial z Metod Obliczeniowych
Metody rozwiązywania układów równań liniowych
Analiza wariancji Marcin Zajenkowski. Badania eksperymentalne ANOVA najczęściej do eksperymentów Porównanie wyników z 2 grup lub więcej Zmienna niezależna.
CLUSTERING Metody grupowania danych Plan wykładu Wprowadzenie Dziedziny zastosowania Co to jest problem klastrowania? Problem wyszukiwania optymalnych.
Jak mierzyć zróżnicowanie zjawiska? Wykład 4. Miary jednej cechy Miary poziomu Miary dyspersji (zmienności, zróżnicowania, rozproszenia) Miary asymetrii.
Miary jednej cechy Miary poziomu Miary dyspersji Miary asymetrii (skośności)
ANALIZA STRUKTURY SZEREGU NA PODSTAWIE MIAR STATYSTYCZNYCH
MIARY ZMIENNOŚCI Główne (wywołujące zmienność systematyczną)
Krzysztof Jurek Statystyka Spotkanie 4. Miary zmienności m ó wią na ile wyniki są rozproszone na konkretne jednostki, pokazują na ile wyniki odbiegają
Analiza wariancji Analiza wariancji (ANOVA) stanowi rozszerzenie testu t-Studenta w przypadku porównywanie większej liczby grup. Podział na grupy (czyli.
Statystyka w doświadczalnictwie
Ulepszenia metody Eigenfaces
Rozpoznawanie Twarzy i Systemy Biometryczne, 2005/2006
(dla szeregu szczegółowego) Średnia arytmetyczna (dla szeregu szczegółowego) Średnią arytmetyczną nazywamy sumę wartości zmiennej wszystkich jednostek.
Mgr Sebastian Mucha Schemat doświadczenia:
Algorytm Rochio’a.
Niepewności przypadkowe
Grupowanie.
Grupowanie Wprowadzanie Definicja problemu
Linear Methods of Classification
Korelacje, regresja liniowa
Metody Symulacyjne w Telekomunikacji (MEST) Wykład 6/7: Analiza statystyczna wyników symulacyjnych  Dr inż. Halina Tarasiuk
Średnie i miary zmienności
Hipotezy statystyczne
Analiza współzależności cech statystycznych
Elementy Rachunku Prawdopodobieństwa i Statystyki
BADANIE STATYSTYCZNE Badanie statystyczne to proces pozyskiwania danych na temat rozkładu cechy statystycznej w populacji. Badanie może mieć charakter:
GŁOSOWA ŁĄCZNOŚĆ Z KOMPUTEREM
Systemy wspomagania decyzji
Hipotezy statystyczne
VI EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja
VII EKSPLORACJA DANYCH
Algorytmika.
Seminarium licencjackie Beata Kapuścińska
Treści multimedialne - kodowanie, przetwarzanie, prezentacja Odtwarzanie treści multimedialnych Andrzej Majkowski.
Przedmiot: Ekonometria Temat: Szeregi czasowe. Dekompozycja szeregów
Ekonometryczne modele nieliniowe
Wnioskowanie statystyczne
Statystyczna analiza danych w praktyce
Statystyczna analiza danych
Model ekonometryczny Jacek Szanduła.
Statystyczna analiza danych
Segmentacja rynku i profilowanie segmentów Prof. dr hab. Eugeniusz Gatnar
Szkoła Letnia, Zakopane 2006 WALIDACJA PODSTAWOWYCH METOD ANALIZY CUKRU BIAŁEGO Zakład Cukrownictwa Politechnika Łódzka Krystyna LISIK.
Budowa skali/indeksu (analiza czynnikowa, analiza głównych składowych) dr Dorota Węziak-Białowolska ISiD.
Przeprowadzenie badań niewyczerpujących, (częściowych – prowadzonych na podstawie próby losowej), nie daje podstaw do formułowania stanowczych stwierdzeń.
Rozkłady statystyk z próby dr Marta Marszałek Zakład Statystyki Stosowanej Instytut Statystyki i Demografii Kolegium.
1 Proces analizy i rozpoznawania. 2 Jak przygotować dwie klasy obiektów?
STATYSTYKA – kurs podstawowy wykład 8 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.
Parametry rozkładów Metodologia badań w naukach behawioralnych II.
STATYSTYKA – kurs podstawowy wykład 11
Niepewności pomiarów. Błąd pomiaru - różnica między wynikiem pomiaru a wartością mierzonej wielkości fizycznej. Bywa też nazywany błędem bezwzględnym.
Koło Naukowe Metod Ilościowych
Jak mierzyć zróżnicowanie zjawiska?
Małgorzata Podogrodzka, SGH ISiD
Statystyka matematyczna
Co do tej pory robiliśmy:
Regresja wieloraka – bada wpływ wielu zmiennych objaśniających (niezależnych) na jedną zmienną objaśnianą (zależą)
Jednorównaniowy model regresji liniowej
Metody klasyfikacyjne
Dr Dorota Rozmus Katedra Analiz Gospodarczych i Finansowych
Analiza współzależności zjawisk
Problem: Agent ubezpieczeniowy postanowił dowiedzieć się, jakimi cechami odznacza się potencjalny nabywca polisy na życie. 1. Sprawdza, jakie charakterystyki.
MIARY STATYSTYCZNE Warunki egzaminu.
Zapis prezentacji:

dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii Metody klasyfikacji obiektów 1

Jeśli obiekty opisywane są przez informację wielowymiarową (kilka zmiennych), powstaje problem, jak rozpoznać prawidłowości występujące w zbiorze obiektów, czyli jak podzielić (poklasyfikować) obiekty na jak najbardziej jednorodne grupy. 2 dr Dorota Węziak-Białowolska, ISiD, SGH

Metody klasyfikacji: A. Metody hierarchiczne: Aglomeracyjne – początkowo każdy obiekt jest odrębnym skupieniem, potem stopniowo łączymy podobne do siebie obiekty w nowe skupienia, aż do momentu uzyskania jednego skupienia Podziałowe – wychodząc od jednego skupienia, rozdzielamy obiekty na mniejsze skupienia B. Metody niehierarchiczne Analiza skupień – metoda k-średnich 3 dr Dorota Węziak-Białowolska, ISiD, SGH

Punktem wyjścia jest określenie podobieństwa jednostek/obiektów tworzących badaną zbiorowość Podobieństwo między obiektami mierzy się najczęściej obliczając odległości między nimi: Odległości: Euklidesowa Kwadrat euklidesowej Minkowskiego Miejska Mahalanobisa Czebyszewa … 4 dr Dorota Węziak-Białowolska, ISiD, SGH Najczęściej stosowane w praktyce d ij – odległość między jednostkami o numerach i oraz j x ik – wartość k-tej cechy dla i-tej jednostki w zbiorowości Wybór miary odległości ma wpływ na wynik grupowania!

Jednostki, w jakich mierzone są zmienne, mają wpływ na wynik pomiaru Jeśli zmienne będące kryteriami klasyfikacji nie są jednomianowe, zalecane jest wystandaryzowanie lub znormalizowanie zmiennych przed przystąpieniem do procedury grupowania dr Dorota Węziak-Białowolska, ISiD, SGH 5

Przekształcenia normalizacyjne Standaryzacja Unitaryzacja 6 dr Dorota Węziak-Białowolska, ISiD, SGH

Standaryzacja Ma na celu uzyskanie zmiennych o wariancji równej 1 i średniej równej 0 7 dr Dorota Węziak-Białowolska, ISiD, SGH

Unitaryzacja Transformacja zmiennych do takiej postaci, aby przedział ich zmienności miał stałą długość 1 8 dr Dorota Węziak-Białowolska, ISiD, SGH

Metody hierarchiczne – procedura grupowania: 1. 1.Wyznaczenie macierzy odległości 2. 2.Wybór najmniejszej wartości w macierzy odległości (z wyjątkiem głównej przekątnej) i utworzenie skupienia z jednostek, których ta najmniejsza odległość dotyczy 3. 3.Ponowne wyznaczenie macierzy odległości dla zredukowanego zbioru obiektów. Dla jednostek, których nie połączono, wartości w macierzy odległości nie zmieniają się. Natomiast trzeba określić podobieństwo między nowym skupieniem a pozostałymi jednostkami. Kroki 2 i 3 powtarzamy aż do utworzenia jednego n-elementowego skupienia ALE jak wyznaczyć odległość z punktu 3? 9 dr Dorota Węziak-Białowolska, ISiD, SGH

Metody łączenia obiektów – metody określania podobieństwa między po utworzeniu skupienia 1. 1.Metoda najbliższego sąsiedztwa (pojedynczego wiązania, single linkage) 2. 2.Metoda najdalszego sąsiedztwa (pełnego wiązania, complete linkage) 3. 3.Metoda średnich połączeń (average linkage) 4. 4.Metoda Warda 10 dr Dorota Węziak-Białowolska, ISiD, SGH

Metoda najbliższego sąsiedztwa – odległość między nowoutworzonym skupieniem i jednostką zewnętrzną ustalana jest jako najmniejsza odległość z odległości między jednostkami w tym skupieniu i jednostką zewnętrzną – odległość między dwoma skupieniami ustalana jest jako najmniejsza odległość z odległości między jednostkami z jednego i drugiego skupienia 11 dr Dorota Węziak-Białowolska, ISiD, SGH

Metoda najdalszego sąsiedztwa – odległość między nowoutworzonym skupieniem i jednostką zewnętrzną ustalana jest jako największa odległość z odległości między jednostkami w tym skupieniu i jednostką zewnętrzną – odległość między dwoma skupieniami ustalana jest jako największa odległość z odległości między jednostkami z jednego z drugiego skupienia 12 dr Dorota Węziak-Białowolska, ISiD, SGH

Metoda średnich połączeń – odległość między nowoutworzonym skupieniem i jednostką zewnętrzną ustalana jest jako średnia arytmetyczna z odległości między jednostkami w tym skupieniu i jednostką zewnętrzną – odległość między dwoma skupieniami ustalana jest jako średnia arytmetyczna z odległości między jednostkami z jednego z drugiego skupienia 13 dr Dorota Węziak-Białowolska, ISiD, SGH

Metoda Warda W metodzie tej odległości między dwoma grupami obiektów nie można przedstawić wprost za pomocą odległości pomiędzy obiektami należącymi do tych grup Dwie grupy obiektów są łączone w jedną grupę tak, aby zminimalizowć sumę kwadratów odchyleń wszystkich obiektów z tych dwóch grup od środka ciężkości nowej grupy, która powstanie w wyniku połączeń tych dwóch grup Na każdym etapie łączenia grup obiektów, ze wszystkich możliwych do łączenia grup obiektów, łączy się w jedną grupę te grupy, które w rezultacie tworzą grupę obiektów o najmniejszym zróżnicowaniu ze względu na opisujące je zmienne dr Dorota Węziak-Białowolska, ISiD, SGH 14

Metoda Warda Kryterium grupowania jednostek w kolejne skupienia jest minimum zróżnicowania wartości cech względem wartości średnich skupień tworzonych w kolejnych krokach Miarą zróżnicowania jest błąd sumy kwadratów – ESS (error of sum of squares) k – liczba jednostek w grupie x i – wartość zmiennej stanowiącej kryterium grupowania charakteryzująca i-tą jednostkę w grupie 15 dr Dorota Węziak-Białowolska, ISiD, SGH

Przykład Które kraje europejskie są do siebie najbardziej podobne, a które różnią się najbardziej pod względem zaufania do różnego rodzaju instytucji? 16 dr Dorota Węziak-Białowolska, ISiD, SGH

Kraje: Czechy, Dania, Hiszpania, Finlandia, Francja, Wielka Brytania, Grecja, Węgry, Holandia, Norwegia, Polska, Portugalia, Słowacja Cechy: Trust in country's parliament (1 – 10) Trust in the legal system (1 – 10) Trust in the police (1 – 10) Trust in politicians (1 – 10) Trust in political parties (1 – 10) Trust in the European Parliament (1 – 10) Trust in the United Nations (1 – 10) Źródło danych: European Social Survey, Round 3 17 dr Dorota Węziak-Białowolska, ISiD, SGH

Dane: 18 dr Dorota Węziak-Białowolska, ISiD, SGH

Najpierw analiza tylko dla czterech krajów: Polski, Czech, Słowacji i Węgier Odległość: Kwadrat odległości euklidesowej Odległość między i-tym i j-tym obiektem ze względu na p cech Metoda najbliższego sąsiedztwa 19 dr Dorota Węziak-Białowolska, ISiD, SGH

Metoda najbliższego sąsiedztwa 20 dr Dorota Węziak-Białowolska, ISiD, SGH

Wynik analizy skupień można przedstawiać za pomocą dendrogramu 21 dr Dorota Węziak-Białowolska, ISiD, SGH

Problem Należy sprawdzić, które z krajów europejskich są do siebie podobne pod względem poziomu zaufania społecznego. Plik: zaufanie.sav 22 dr Dorota Węziak-Białowolska, ISiD, SGH

Odległość: Kwadrat odległości euklidesowej 23 dr Dorota Węziak-Białowolska, ISiD, SGH

24 dr Dorota Węziak-Białowolska, ISiD, SGH

DEFIGBGR + ES + FRHUNLNOPLPTSK + CZ DE FI GB GR + ES + FR HU NL NO PL 063 PT 04 SK + CZ 0 25 dr Dorota Węziak-Białowolska, ISiD, SGH

Wynik analizy skupień można przedstawiać za pomocą dendrogramu Metoda najdalszego sąsiedztwa 26 dr Dorota Węziak-Białowolska, ISiD, SGH

Metoda najbliższego sąsiedztwa 27 dr Dorota Węziak-Białowolska, ISiD, SGH

Metoda średnich połączeń 28 dr Dorota Węziak-Białowolska, ISiD, SGH

Im mniej wyniki grupowania zależą od przyjętej metody wyznaczania odległości między nowym skupieniem a jednostkami poza skupieniem, tym otrzymane rozwiązanie jest bardziej wiarygodne 29 dr Dorota Węziak-Białowolska, ISiD, SGH

Metody niehierarchiczne Metoda k – średnich Tworzymy skupienia w taki sposób, aby jednostki w skupieniu były jak najbardziej podobne, ale jednocześnie jednostki z różnych skupień możliwie jak najmocniej różniły się od siebie Określamy a priori liczbę skupień Losowo wybieramy początkowego reprezentanta dla każdego skupienia Algorytm w kolejnych iteracjach przenosi obiekty do różnych skupień, zmierzając do minimalizacji zmienności wewnątrz skupień i maksymalizacji zmienności między skupieniami Kolejne kroki charakteryzowane są przez funkcję błędu; jej postać jest różnie definiowana w różnych pakietach statystycznych – obliczeniowo jest to „odwrotność” analizy wariancji 30 dr Dorota Węziak-Białowolska, ISiD, SGH

Zadanie Należy sprawdzić, które z krajów europejskich są do siebie podobne pod względem poziomu zaufania społecznego. Stosujemy metodę k-średnich Plik: zaufanie.sav 31 dr Dorota Węziak-Białowolska, ISiD, SGH