Metody klasyfikacyjne

Slides:



Advertisements
Podobne prezentacje
Regresja i korelacja materiały dydaktyczne.
Advertisements

Badania statystyczne Wykłady 1-2 © Leszek Smolarek.
Excel Narzędzia do analizy regresji
Klasyfikacja danych Metoda hierarchiczne
Analiza współzależności zjawisk
IV Tutorial z Metod Obliczeniowych
Analiza wariancji jednoczynnikowa
Analiza wariancji Marcin Zajenkowski. Badania eksperymentalne ANOVA najczęściej do eksperymentów Porównanie wyników z 2 grup lub więcej Zmienna niezależna.
BUDOWA MODELU EKONOMETRYCZNEGO
CLUSTERING Metody grupowania danych Plan wykładu Wprowadzenie Dziedziny zastosowania Co to jest problem klastrowania? Problem wyszukiwania optymalnych.
Analiza współzależności
ANALIZA STRUKTURY SZEREGU NA PODSTAWIE MIAR STATYSTYCZNYCH
Analiza współzależności
Krzysztof Jurek Statystyka Spotkanie 4. Miary zmienności m ó wią na ile wyniki są rozproszone na konkretne jednostki, pokazują na ile wyniki odbiegają
Analiza wariancji Analiza wariancji (ANOVA) stanowi rozszerzenie testu t-Studenta w przypadku porównywanie większej liczby grup. Podział na grupy (czyli.
Statystyka w doświadczalnictwie
Dzisiaj na wykładzie Regresja wieloraka – podstawy i założenia
Algorytm Rochio’a.
Analiza korelacji.
Niepewności przypadkowe
Wykład 14 Liniowa regresja
Linear Methods of Classification
Korelacje, regresja liniowa
ANALIZA KORELACJI LINIOWEJ PEARSONA / REGRESJA LINIOWA
dr inż. Piotr Muryjas Wyższa Szkoła Przedsiębiorczości i Administracji
Korelacja, autokorelacja, kowariancja, trendy
Hipotezy statystyczne
Analiza współzależności cech statystycznych
BADANIE STATYSTYCZNE Badanie statystyczne to proces pozyskiwania danych na temat rozkładu cechy statystycznej w populacji. Badanie może mieć charakter:
Analiza wariancji jednoczynnikowa.
Testy nieparametryczne
Irena Woroniecka EKONOMIA MENEDŻERSKA - dodatek do W2
GŁOSOWA ŁĄCZNOŚĆ Z KOMPUTEREM
Hipotezy statystyczne
Elementy Rachunku Prawdopodobieństwa i Statystyki
Statystyka ©M.
VI EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja
VII EKSPLORACJA DANYCH
Regresja wieloraka.
Seminarium licencjackie Beata Kapuścińska
ANALIZA ANOVA - KIEDY? Wiele przedsięwzięć badawczych zakłada porównanie pomiędzy średnimi z więcej niż dwóch populacji lub dwóch warunków eksperymentalnych.
Przedmiot: Ekonometria Temat: Szeregi czasowe. Dekompozycja szeregów
Ekonometryczne modele nieliniowe
Grafika i komunikacja człowieka z komputerem
Statystyka medyczna Piotr Kozłowski
Podstawowe pojęcia i terminy stosowane w statystyce
Statystyczna analiza danych w praktyce
Statystyczna analiza danych
Statystyczna analiza danych
Model ekonometryczny Jacek Szanduła.
Statystyczna analiza danych
Korelacje dwóch zmiennych. Korelacje Kowariancja.
Budowa skali/indeksu (analiza czynnikowa, analiza głównych składowych) dr Dorota Węziak-Białowolska ISiD.
Ekonometria stosowana Heteroskedastyczność składnika losowego Piotr Ciżkowicz Katedra Międzynarodowych Studiów Porównawczych.
Weryfikacja hipotez statystycznych „Człowiek – najlepsza inwestycja”
STATYSTYKA – kurs podstawowy wykład 8 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.
Modele nieliniowe sprowadzane do liniowych
STATYSTYKA – kurs podstawowy wykład 11
Dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii Metody klasyfikacji obiektów 1.
Koło Naukowe Metod Ilościowych
Co do tej pory robiliśmy:
Regresja wieloraka – bada wpływ wielu zmiennych objaśniających (niezależnych) na jedną zmienną objaśnianą (zależą)
Jednorównaniowy model regresji liniowej
Selekcja danych Korelacja.
Grupy danych.
Dr Dorota Rozmus Katedra Analiz Gospodarczych i Finansowych
MIARY STATYSTYCZNE Warunki egzaminu.
Analiza kanoniczna - stanowi uogólnienie liniowej regresji wielorakiej na dwa zbiory zmiennych tzn. dla zmiennych zależnych i niezależnych. Pozwala badać.
Korelacja i regresja liniowa
Analiza głównych składowych PCA
Zapis prezentacji:

Metody klasyfikacyjne Zastosowanie statystyki w Bioinżynierii Dr Wioleta Drobik-Czwarno

Metody klasyfikacyjne w SPSS Dwustopniowa analiza skupień Analiza skupień metodą K- średnich Hierarchiczna analiza skupień Drzewa klasyfikacyjne Analiza dyskryminacyjna Najbliższego sąsiada

Metody klasyfikacyjne Dwustopniowa analiza skupień Dobra w eksploracji danych, automatycznie proponuje najlepsze rozwiązanie – wskazówka dla właściwych modeli! Możliwość używania zmiennych ilościowych i jakościowych. Analiza skupień metodą K- średnich Z góry określona liczba skupień – minimalizowanie zmienności wewnątrz grup i maksymalizowanie różnic pomiędzy grupami Hierarchiczna analiza skupień Tworzy skupienia tak aby na każdym poziomie otrzymana była grupa złożona z grup obecnych na poprzednich poziomach łączenia. Od pojedynczych obserwacji do coraz większych grup.

Metody klasyfikacyjne Polegają na grupowaniu obserwacji podobnych w klastry Jaki algorytm wybrać? Na ile klastrów podzielić obserwacje? Klasteryzacja należy do metod tzw. Unsepervised learning, czyli technik szukających ukrytych zależności, na podstawie których możemy tworzyć nowe hipotezy badawcze. Trudno walidować ich wyniki. Podstawowym kryterium jakości tych metod jest użyteczność Czy wyniki mają sens? Czy wyniki są przydatne na kolejnych etapach analizy?

Parametry decyzyjne Przed wykonywaniem obliczeń musimy podjąć szereg decyzji: wybór zmiennych do modelu (i ich standaryzacji) wybór klasy (hierarchiczna, niehierarchiczna) i metody wybór sposobu liczenia odległości między obserwacjami sposób decydowania o najbliższym sąsiedzie (najbliższy punkt, najdalszy punkt, centroid, itd) liczba poszukiwanych klastrów (zwykle jako część metody, ale dobrze mieć jakiś cel a priori)

Metody analizy skupień Hierarchiczne – lepsze na małych zbiorach danych, intuicyjne np. najbliższego sąsiada Niehierarchiczne – lepsze na dużych zbiorach danych, nieintuicyjne np. K- średnich Łączenie obiektów w grupy odbywa się na podstawie oszacowania odległości (d) w przestrzeni wielowymiarowej Najlepsza stratega: Porównanie kilku metod i wyników. Wybieramy te podzbiory które najlepiej pasują do danych

Standaryzacja zmiennych Standaryzacja – stosowana w celu wyeliminowania wpływu skali dla poszczególnych zmiennych Tendencja centralna np. średnia, mediana Miara rozproszenia np. odchylenie standardowe, odchylenie ćwiartkowe np. w rozkładzie normalnym

Podobieństwo obserwacji Wyznaczamy odległość i przyjmujemy że obserwacje podobne są blisko siebie Odległości wyznaczamy dla każdej pary obserwacji w macierzy o wymiarach n x n gdzie dij to odległość między i-tą i j-tą obserwacją

Sposoby liczenia odległości Odległość euklidesowa: Odległość geometryczna w przestrzeni wielowymiarowej Odległość miejska (manhattan): Suma różnic mierzona wzdłuż wymiarów Oparte o współczynnik korelacji gdzie d = 1 - r Pearsona Eisena Spearmana Kendalla

Dwustopniowa analiza skupień Bardzo dobra dla znalezienia optymalnej liczby klastrów Założenia i weryfikacja: Miara odległości oparta na wiarygodności zakłada, że zmienne w modelu skupień są niezależne (testowanie: korelacje parami dla zmiennych ilościowych, tabele krzyżowe dla zmiennych jakościowych) każda zmienna ilościowa posiada rozkład normalny (weryfikacja: eksploracja) każda zmienna jakościowa rozkład wielomianowy (weryfikacja: test chi-kwadrat) Dość duża odporność metody na niespełnienie założeń Jednak zawsze sprawdzić z czym mamy doczynienia!

Dwustopniowa analiza skupień W polu Wyniki zaznaczamy: Tabele przestawne, Wykresy i tabele w przeglądzie modelu (przenosimy Gatunek w Pola ewaluacyjne), Tworzymy zmienną informującą o przynależności do skupień

Dwustopniowa analiza skupień Optymalna liczba klastrów: Jak najmniejsze BIC Relatywnie wysoki Iloraz zmiany BIC Relatywnie wysoki Iloraz zmiany odległości W tym przypadku: 2 lub 3 klastry

Grupowanie metodą k-średnich Wyznaczamy punkty zwane centroidami zgodnie z wcześniej założoną liczbą klastrów Algorytm działa iteracyjnie w dwóch krokach: Przypisanie do klastra – każdy punkt danych przypisujemy do najbliższego klastra Zmiana położenia centrodiu – obliczanie średnich odległości punktów w klastrze i przesunięcie centroidu Dobre wytłumaczenia i pochodzenie schematów po prawej: http://bigdata-madesimple.com/possibly-the-simplest-way-to-explain-k-means-algorithm/

Grupowanie metodą k-średnich w SPSS

Grupowanie metodą k-średnich w SPSS Wyniki Czy udało się jednoznacznie ustalić centra skupień?

Grupowanie metodą k-średnich w SPSS Jakość klasyfikacji Wykresy > Wykresy tradycyjne > Rozrzutu / Punktowy

Grupowanie metodą k-średnich w SPSS Jakość klasyfikacji Analiza > Opis statystyczny > Tabele krzyżowe

Hierarchiczna analiza skupień Metoda eksploracyjna, generuje serie rozwiązań dla różnej liczby klastrów łącząc obserwacje w coraz większe grupy Wymaga jednolitego typu danych (liczebności, zmiennych ilościowych lub jakościowych) Odległości w zależności od rodzaju zmiennych: ilościowe: np. euklidesowe, kwadrat odległości euklidesowej, korelacja Pearsona, odległość miejska (prostokątna), odległość Mińkowskiego, odległość Czybyszewa. zmienne porządkowe np. chi kwadrat i phi kwadrat. zmienne binarne np. euklidesowa, kwadrat odległości euklidesowej,  różnica wielkości, lambda, miara Dice’a, miara Kulczyńskiego, miara Ochiai, miara Q Yule’a. 

Hierarchiczna analiza skupień Najważniejsze metody dostępne w SPSS Średniej odległości między skupieniami – średnia z odległości między jednym obiektem z grupy A i jednym z grupy B Najbliższego sąsiedztwa (Single linkage) – odległość między obiektami to odległość między najbliższymi obiektami Najdalszego sąsiedztwa (complete linkage) - odległość między obiektami to odległość między najbardziej oddalonymi obiektami Metoda Warda - dystans pomiędzy skupieniami jest określony jako suma kwadratów odchyleń wewnątrz tych skupień. Podobna do metody pierwszej, dodana jest poprawka na wielkość grup. Celem jest zminimalizowanie wariancji wewnątrzgrupowej.

Hierarchiczna analiza skupień Wykresy Sopelkowy: informacja o sposobie łączenia obserwacji w skupienia przy każdej iteracji analizy Dendrogram: Graficzne przedstawienie sekwencji łączenia lub dzielenia skupień nazywamy dendrogramem

Hierarchiczna analiza skupień w SPSS Zostawiamy ustawienia domyślne Zaznaczamy Dendrogram Najważniejsze okno dialogowe: Tutaj możemy modyfikować metodę mierzenia dystansów (w zależności od typu zmiennych!) oraz metodę analizy (grupowanie obserwacji) Zapisujemy przynależność do klastrów w formie zakresu (tutaj 2 lub 3)

Grupowanie metodą hierarchicznej analizy skupień Jakość klasyfikacji Analiza > Opis statystyczny > Tabele krzyżowe Metoda: Średniej odległości między skupieniami Metoda: Warda

Analiza głównych składowych PCA Redukcja wymiarów Analiza głównych składowych PCA

Redukcja wymiarów Analiza czynnikowa (w tym analiza głównych składowych, PCA) Służy do redukcji liczby zmiennych opisujących zjawiska oraz odkrycia ukrytych prawidłowości w danych Czynnik jest nową zmienną, która nie jest bezpośrednio obserwowalna – jest wyznaczana na podstawie zmiennych pierwotnych Analiza korespondencji Opisowa i eksploracyjna technika analizy danych Skalowanie optymalne

analiza głównych składowych, PCA Założenia: Wiele zmiennych o charakterze ilościowym (lub porządkowym) Obserwujemy liniowe zależności pomiędzy zmiennymi. Weryfikacja: macierz korelacji, wykresy punktowe Dostatecznie duża próba. Polecana: minimum 5-10 obserwacji na zmienną Możliwa redukcja ilości zmiennych. Weryfikujemy testem sferyczności Bartletta i miarą KMO Brak znaczących obserwacji odstających

Jak podsumować dwie zmienne w jedną, aby stracić jak najmniej informacji? Nowa linia jest liniową kombinacją dwóch zmiennych Zasady: maksymalizujemy wariancję (rozrzut wzdłuż linii), jak najmniejsza wartość błędu dopasowania (suma długości czerwonych linie)

PCA opiera się na macierzy kowariancji (lub Korelacji, dystansów) Wariancja zmiennej x Kowariancja Wariancja zmiennej y Kowariancja

Wektory własne macierzy (eigenvectors) Wektor, który po przeskalowaniu wskazuje ten sam kierunek jest wektorem własnym (eigenwektorem). Mnożenie przez macierz dla której został wyznaczony może go wydłużyć, skrócić lub zmienić zwrot. Mogą zostać zidentyfikowane jedynie dla macierzy kwadratowej (n x n) Nie wszystkie macierze kwadratowe posiadają eigenwektory Jeżeli macierz n x n posiada eigenwektory ich liczba wynosi n Np. macierz 3 x 3 będzie posiadała 3 eigenwektory Eigenwektory są wzajemnie ortogonalne (nieskorelowane)

Wartości własne (eigenvalues) Wartość własna eigenwektora, to stała, która x-razy zwiększa lub zmniejsza jego długość Każdy eigenwektor ma korespondujące do niego wartości własne czyli wartości informujące nas jak dużo zmienności jest w danych Eigenwektor z najwyższą wartością własną jest tzw. głównym komponentem (ang. principal component)

Analiza głównych składowych (PCA) Dla dwóch zmiennych Przykładowe dane: Etap 1: Odejmujemy średnią Dane pochodzą ze Smith L. 2002. A tutorial on Principal Components Analysis.

Analiza głównych składowych (PCA) Dla dwóch zmiennych Etap 2 – wyliczamy macierz kowariancji Etap 3 – Wyznaczamy eigenwektory i ich wartości własne dla macierzy kowariancji 1 2 1 2

Eigenwektor 2 Eigenwektor 1

Analiza głównych składowych (PCA) Dla dwóch zmiennych Etap 4 – Sprawdzamy wartości własne eigenwektorów i fomułujemy macierz z eigenwektorami które chcemy zostawić (lub wszystkimi) Etap 5 – Transformujemy dane przez eigenwektory Dane po transformacji: (Macierz z eigenwektorami)T x (Macierz z danymi po odjęciu średniej)T Otrzymujemy dane po transformacji przez eignewektor(y), który(e) wybraliśmy

Analiza głównych składowych (PCA) Dla dwóch zmiennych Dane po przekształceniu. Zachowując wszystkie eigenwektory można wrócić do danych wyjściowych bez utraty informacji

Analiza głównych składowych (PCA) Dla dwóch zmiennych Dane po przekształceniu. Zachowując tylko pierwszy eigenwektor można wrócić do danych wyjściowych, ale tracimy informację

PCA w SPSS Analiza > Redukcja wymiarów > Analiza czynnikowa Uwaga: Analiza czynnikowa jest szerokim pojęciem, domyślnie zaznaczone jest PCA

PCA w SPSS Zaznaczamy wykres osypiska Wyodrębnianie: zmieniamy minimum dla wartości własnych (np. na 0.5) lub ustalamy z góry liczbę czynników na 2 lub 3

PCA w SPSS Oceny: Zapisz jako zmienne regresja – zapisuje współrzędne na poszczególnych składowych dla każdej obserwacji Rotacja: zmienia ładunki, ułatwia interpretacje np. wybieramy Varimax – rotacja ortogonalna, maksymalizująca wariancję dla wyjściowych zmiennych Opcje do zaznaczenia: Sortuj według wartości ładunków czynnikowych Ukryj małe współczynniki

Macierz korelacji – weryfikacja założeń

Macierz korelacji – weryfikacja założeń Współczynnik KMO - porównuje korelacje cząstkowe z dwuzmiennymi wspóczynnikami korelacji. Dalsza analiza ma sens (uzyskamy redukcję wymiarów) jeżeli KMO > 0.5 Test Sferyczności Barletta – Hipoteza zerowa: macierz współczynników korelacji jest macierzą jednostkową → nie ma istotnych korelacji między zmiennymi. Analiza redukcji danych przyniesie sensowny rezultat jeżeli możemy odrzucić hipotezę zerową.

Zasób zmienności wspólnej część wariancji objaśniona przez składowe Zakres od 0 d0 1 – Czym bliżej 1 tym lepiej nasze składowe odzwierciedlają zmienność obserwowana w zmiennych Równe R2 gdybyśmy zrobili model regresji przewidijacy zmienną na podstawie wybranych składowych

Wybór najważniejszych składowych Kryteria wyboru: Skumulowany procent wyjaśnionej wariancji analizowanych zmiennych (min  75%, 80% lub 90%) Kryterium Kaisera - pozostawia się te składowe główne które mają wartości własne większe od jedności (tylko dla macierzy korelacji) Analiza wykresu osypiska

Wykres osypiska. Wykres wariancji powiązanej z każdym z czynników Osypisko czynnikowe element wykresu na którym obserwujemy łagodny spadek wartości własnych składowe, które znalazły się na osypisku poddajemy redukcji

Wykres ładunków czynnikowych Niewielki kąt = duża korelacja zmiennych

Źródła SPSS: https://www.ibm.com/support/ Smith L. 2002. A tutorial on Principal Components Analysis. Dostępny online. Patterson N, Price AL., Reich D. 2006. Population Structure and Eigenanalysis. Plos ONE. Objaśnienia do tabel wynikowych i wykresów SPSS: https://stats.idre.ucla.edu/spss/output/principal-components- analysis/