Co do tej pory robiliśmy:

Slides:



Advertisements
Podobne prezentacje
Excel Narzędzia do analizy regresji
Advertisements

Klasyfikacja danych Metoda hierarchiczne
Wprowadzenie do budowy usług informacyjnych
Analiza wariancji jednoczynnikowa
Analiza wariancji Marcin Zajenkowski. Badania eksperymentalne ANOVA najczęściej do eksperymentów Porównanie wyników z 2 grup lub więcej Zmienna niezależna.
PODSUMOWANIE WIADOMOŚCI ZE STATYSTYKI
BUDOWA MODELU EKONOMETRYCZNEGO
Regresja w EXCELU.
CLUSTERING Metody grupowania danych Plan wykładu Wprowadzenie Dziedziny zastosowania Co to jest problem klastrowania? Problem wyszukiwania optymalnych.
Jak mierzyć zróżnicowanie zjawiska? Wykład 4. Miary jednej cechy Miary poziomu Miary dyspersji (zmienności, zróżnicowania, rozproszenia) Miary asymetrii.
Analiza współzależności
MIARY ZMIENNOŚCI Główne (wywołujące zmienność systematyczną)
Analiza współzależności
Krzysztof Jurek Statystyka Spotkanie 4. Miary zmienności m ó wią na ile wyniki są rozproszone na konkretne jednostki, pokazują na ile wyniki odbiegają
Portfel wielu akcji. Model Sharpe’a
Techniki chemometryczne w ocenie próbek środowiskowych i biologicznych
Dzisiaj na wykładzie Regresja wieloraka – podstawy i założenia
BIOSTATYSTYKA I METODY DOKUMENTACJI
Mgr Sebastian Mucha Schemat doświadczenia:
Algorytm Rochio’a.
Analiza korelacji.
Niepewności przypadkowe
Grupowanie Wprowadzanie Definicja problemu
Alfred Stach Instytut Paleogeografii i Geoekologii
Korelacje, regresja liniowa
Metody Symulacyjne w Telekomunikacji (MEST) Wykład 6/7: Analiza statystyczna wyników symulacyjnych  Dr inż. Halina Tarasiuk
dr inż. Piotr Muryjas Wyższa Szkoła Przedsiębiorczości i Administracji
Analiza wariancji jednoczynnikowa
Testy nieparametryczne
Rachunek kosztów zmiennych
Analiza współzależności cech statystycznych
Analiza wariancji jednoczynnikowa.
Testy nieparametryczne
USTALANIE NORM WYDAJNOSCI PRACOWNIKÓW
Segmenty rynku prasowego
Statystyka ©M.
VI EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja
VII EKSPLORACJA DANYCH
IV EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja
Regresja wieloraka.
Seminarium licencjackie Beata Kapuścińska
1 informatyka +. 2 TYTUŁ: Podstawowe statystyki wykorzystywane do analizowania danych AUTOR: A. Brzostek, P. Królikowski.
Symulacje w arkuszu kalkulacyjnym Excel1 1 czerwca 2004 PRYWATNE POGOTOWIE w WARSZAWIE Małgorzata Nosko Wojciech Wosik.
Podstawowe pojęcia i terminy stosowane w statystyce
Statystyczna analiza danych w praktyce
Statystyczna analiza danych
Statystyczna analiza danych
Statystyczna analiza danych
ze statystyki opisowej
1 Proces analizy i rozpoznawania. 2 Jak przygotować dwie klasy obiektów?
STATYSTYKA – kurs podstawowy wykład 13 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.
STATYSTYKA – kurs podstawowy wykład 8 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.
Modele nieliniowe sprowadzane do liniowych
Parametry rozkładów Metodologia badań w naukach behawioralnych II.
Dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii Metody klasyfikacji obiektów 1.
Niepewności pomiarów. Błąd pomiaru - różnica między wynikiem pomiaru a wartością mierzonej wielkości fizycznej. Bywa też nazywany błędem bezwzględnym.
Koło Naukowe Metod Ilościowych
Jak mierzyć zróżnicowanie zjawiska?
Statystyka matematyczna
Regresja wieloraka – bada wpływ wielu zmiennych objaśniających (niezależnych) na jedną zmienną objaśnianą (zależą)
Jednorównaniowy model regresji liniowej
Metody klasyfikacyjne
Zakład Ogólnej Ekonomiki
MIARY CENTROGRAFICZNE
Wykorzystywanie wyników sprawdzianu w pracy dydaktycznej
Selekcja danych Korelacja.
Dr Dorota Rozmus Katedra Analiz Gospodarczych i Finansowych
Problem: Agent ubezpieczeniowy postanowił dowiedzieć się, jakimi cechami odznacza się potencjalny nabywca polisy na życie. 1. Sprawdza, jakie charakterystyki.
MIARY STATYSTYCZNE Warunki egzaminu.
Analiza kanoniczna - stanowi uogólnienie liniowej regresji wielorakiej na dwa zbiory zmiennych tzn. dla zmiennych zależnych i niezależnych. Pozwala badać.
Zapis prezentacji:

Co do tej pory robiliśmy: Chcemy pozyskać wiedzę o jakimś zjawisku Wybieramy elementy, które opisują to zjawisko Wybieramy zmienne, które mogą opisywać to zjawisko Badamy, czy wybrane przez nas zmienne rzeczywiście wpływają na nasze zjawiska Oceniamy, w jakim stopniu wybrane przez nas zmiennych determinują opisywane zjawisko

6. TERAZ: Zastanawiamy się, czy jakieś elementy wchodzące w skład badania z podobnym natężeniem opisują nasze zjawisko.

Przykład 1 Analizujemy jakość życia w małych miastach Polski (360 elementów). Do opisu jakości wybrano takie zmienne jak: czystość powietrza, liczbę sklepów na 1 mieszkańca, liczbę lekarzy na 1 mieszkańca, liczbę przestępstw w roku. Czy można wyróżnić grupę miast, gdzie poziom życia mieszkańców, opisany tymi zmiennymi, jest podobny?

Syntetyczny wskaźnik jakości życia: Zmienna stymulana/destymulana/nominanta Standaryzacja (miana) Wagi Zmienna syntetyczna (suma rang zmiennych) 5. Lista rankingowa dla zmiennej syntetycznej 6. Podział według kryterium np. udziału, relacji średnia +/odchylenie standardowe

miasta powietrze sklepy lekarze przestępstwa a 11 3 2 b 12 c 15 d 19 1 e 21 4 27 f 38 5 g h 39 i 6 j 7 k 41 l 45 8 o q 48 9 r 49 t 57 u 59 w 16 y 18

Metody taksonomiczne – grupowanie obiektów (zmiennych) w taki sposób, aby stopień powiązania między obiektami (zmiennymi) z danej grupy był jak największy i jednocześnie jak najmniejszy z obiektami (zmiennymi) z pozostałych grup.

Miary odległości - podobieństwa (lub niepodobieństwa) między obiektami 1. Odległość euklidesowa (x,y) = {Ʃi (xi - yi)2 }½ Na odległości wyliczane w oparciu o surowe dane (nie standaryzowanych) duży wpływ mają różnice w jednostkach między zmiennymi. 2. Kwadrat odległości euklidesowej ( x,y) =Ʃi(xi - yi)2 Odległość euklidesowa podniesiona do kwadratu, aby przypisać większą wagę obiektom, które są bardziej oddalone. 3. Odległość miejska (x,y) =Ʃi|xi - yi| Wyniki podobne do odległości euklidesowej, wpływ przypadków odstających jest niewielki 4. Odległość Czebyszewa.(x,y) = Maksimum|xi - yi| stosowna wtedy, gdy chcemy zdefiniować dwa obiekty jako "inne", gdy różnią się one w jednym dowolnym wymiarze. 5. Odległość potęgowa. (x,y) = (Ʃixi - yi|p)1/r gdzie r i p są parametrami zdefiniowanymi przez użytkownika. Jeżeli chcemy zwiększyć lub zmniejszyć wagę przypadków.

Metody łączenia grup obiektów: 1. Metoda pojedynczego wiązania (najbliższego sąsiedztwa). Odległość między dwoma skupieniami jest określona przez odległość między dwoma najbliższymi obiektami należącymi do różnych skupień. 2. Metoda pełnego wiązania (najdalszego sąsiedztwa). Odległość między skupieniami jest określana przez największą z odległości między dwoma obiektami należącymi do różnych skupień. Stosowana kiedy obiekty układają się w naturalne oddzielone grupki, a nie wzdłuż linii.

3. Metoda średnich połączeń 3. Metoda średnich połączeń. Odległość między dwoma skupieniami oblicza się jako średnią odległość między wszystkimi parami obiektów należących do dwóch różnych skupień. Metoda efektywna, jeżeli obiekty formują naturalnie oddzielone skupiska, a nie charakter linii. 4. Metoda średnich połączeń ważonych. Identyczna jak metoda średnich połączeń z tym, że uwzględnia się liczbę obiektów zawartych w grupie. Liczności skupień są wyraźnie nierówne.

5. Metoda środków ciężkości 5. Metoda środków ciężkości. Środek ciężkości skupienia jest średnim punktem w przestrzeni wielowymiarowej zdefiniowanej przez te wymiary. Odległość między dwoma skupieniami jest określona jako różnica między środkami ciężkości. 6. Metoda ważonych środków ciężkości (mediany). Identyczna jak poprzednia z tym, że w obliczeniach wprowadza się ważenie grup, aby uwzględnić różnice między liczebnościami obiektów w skupieniu. Znaczne różnice w liczbie obiektów w skupieniu. 7. Metoda Warda. Do wyznaczenia odległości między skupieniami wykorzystuje podejście analizy wariancji. tj. zmierza do minimalizacji sumy kwadratów odchyleń dowolnych dwóch skupień, które mogą zostać uformowane na każdym etapie. Metoda najbardziej efektywna, chociaż zmierza do tworzenia skupień o małej liczebności obiektów.

Analiza skupień – grupowanie obiektów podobnych Statystyka/Wielowymiarowe/Analiza skupień

Aglomeracyjna (Hierarchiczne drzewo powiązań) - każde kolejne powiązanie między grupą obiektów a kolejnym obiektem jest coraz słabsze

2. Grupowanie metodą k-średnich Zadajemy liczbę k skupień, które są jak najbardziej różne, a następnie dodajemy kolejne obiekty do tych skupień tak, aby zmienność wewnątrz skupień była jak najmniejsza i jak największa między skupieniami.

3. Jednoczesne grupowanie obiektów i cech. Struktury skupień 3. Jednoczesne grupowanie obiektów i cech. Struktury skupień. Trudność w interpretacji - podobieństwa między różnymi skupieniami mogą wynikać z nieco innych podzbiorów zmiennych. Struktura wynikowa nie jest homogeniczna.