Pobierz prezentację
Pobieranie prezentacji. Proszę czekać
1
Przygotowanie i wstępna obróbka danych
Eksploracja Danych Przygotowanie i wstępna obróbka danych postacie danych, wczytywanie danych, ocena jakości, filtrowanie oraz czyszczenie danych, konsolidacja danych, przekształcenia danych. Krzysztof Regulski, WIMiIP, KISiM,
2
Czyszczenie danych Pierwszym krokiem po zebraniu danych powinna być wstępna analiza polegająca na oczyszczeniu zbioru danych z wartości odstających, spowodowanych np. błędami grubymi Błędy grube wynikają najczęściej z jakiegoś poważnego przeoczenia, pomyłki – np. złego odczytania skali miernika, z pomylenia miejsca zapisu przecinka podczas przetwarzania pomiarów, zmierzenie nie tego obiektu itp. KISIM, WIMiIP, AGH
3
Najczęściej stosowane:
Jeżeli przygotowany zbiór danych będzie zawierał wartości odstające, wtedy analizy, które będą wykonywane w następnej kolejności mogą dać błędne wyniki. Najczęściej stosowane: test Grubbsa, test trzech sigma (normalny), Tukeya test Dixona, test Cochrana, test 3d, kryterium Chauveneta. KISIM, WIMiIP, AGH
4
Test Grubbsa W celu sprawdzenia, czy w zbiorze danych jest wartość odstająca ze względu na wartość średnią, w pierwszej kolejności musimy znaleźć kandydata na wartość odstającą, czyli wartość która jest najbardziej oddalona od ogólnej średniej. Następnie wartość bezwzględną różnicy pomiędzy wartością średnią a wartością kandydata należy podzielić przez odchylenie standardowe. Otrzymujemy w ten sposób wartość statystyki zwanej statystyką Grubbsa: Pozostaje nam otrzymaną wartość G porównać z wartością krytyczną, którą może my odczytać z odpowiednich tablic. Jeżeli G będzie zbyt wysokie, wtedy należy uznać kandydata za wartość odstającą. KISIM, WIMiIP, AGH
5
STATISTICA: Moduł Podstawowe statystyki i tabele
Aby wykonać ten test, idziemy do okna Statystyki opisowe i wybierzmy kartę Odporne. Karta ta zawiera opcje umożliwiające włączenie do arkusza wynikowego średniej Winsora, średniej przyciętej oraz testu Grubbsa. Test Grubbsa na obserwacje odstające może być użyty w celu wskazania jednej obserwacji odstającej podczas jednego przebiegu. Test ten polega na wyliczeniu jak daleko potencjalna obserwacja odstająca znajduje się od pozostałych wartości w zbiorze danych. Statystyka testu Grubbsa (G) liczona jest jako stosunek największego bezwzględnego odchylenia średniej z próby do odchylenia standardowego próby KISIM, WIMiIP, AGH
6
KISIM, WIMiIP, AGH
7
Zamiana obserwacji odstających.
Po tym jak wskazano obserwacje odstające, do badacza należy określenie czy obserwacje te przedstawiają szczególną własność danej zmiennej czy są wynikiem błędu albo innych anomalii, które nie powinny być modelowane. W programie STATISTICA znajdują się opcję czyszczenia danych, które mogą być wykorzystane w celu zamiany obserwacji odstających. Dostęp do tej opcji możliwy jest przez wybór polecenia Zamień odstające z menu Dane - Czyszczenie danych. KISIM, WIMiIP, AGH
8
Okno Zamiana wartości odstających i rzadkich zawiera różne testy umożliwiające identyfikację obserwacji odstających w zmiennych ciągłych i jakościowych. W przypadku zmiennych jakościowych, STATISTICA za obserwacje odstające uzna te przypadki, których kod lub wartość tekstowa występują rzadziej niż określona częstotliwość. W przypadku zmiennych ciągłych można wybrać jeden z wielu dostępnych testów. KISIM, WIMiIP, AGH
9
Test Grubbsa KISIM, WIMiIP, AGH
10
Zamiana obserwacji odstających.
2 1 KISIM, WIMiIP, AGH
11
KISIM, WIMiIP, AGH
12
Metoda graficzna KISIM, WIMiIP, AGH
13
Wykres ramka-wąsy Podejście graficzne. Popularnym sposobem wykrywania obserwacji odstających jest stworzenie wykresu ramkowego. Aby to zrobić, należy kliknąć przycisk Zmienne, który znajduje się w oknie Statystyki opisowe. Otrzymamy okno wyboru zmiennej. Ponieważ interesuje nas znalezienie jakiejkolwiek obserwacji odstającej w naszym zbiorze, klikamy przycisk Wszystkie oraz OK. Następnie, na karcie Podstawowe, klikamy Wykres ramka-wąsy. KISIM, WIMiIP, AGH
14
Obserwacje odstające Aby włączyć pokazywanie takich obserwacji, należy dwukrotnie kliknąć w tło wykresu. Na ekranie pojawi się okno Opcje wykresu; przechodzimy w nim na kartę Wykres właściwy: Ramka-wąsy. KISIM, WIMiIP, AGH
15
Przykład: Wykrywanie obserwacji odstających
Podejście graficzne. Popularnym sposobem wykrywania obserwacji odstających jest stworzenie wykresu ramkowego. KISIM, WIMiIP, AGH
16
Wykres właściwy: Ramka-wąsy.
Widać wyraźnie, że zmienna N_ZATR cechuje się większą zmiennością niż pozostałe zmienne. Na tym początkowym wykresie potencjalne obserwacje odstające i ekstremalne nie są wskazane. Aby włączyć tę opcję, należy dwukrotnie kliknąć w tło wykresu aby wyświetlić okno Wszystkie opcje, a następnie wybrać kartę Wykres właściwy: Ramka-wąsy. KISIM, WIMiIP, AGH
17
wybieramy dodatkowe opcje określające wykres, kontrolujące wyświetlanie obserwacji odstających i ekstremalnych oraz wykorzystanie rozkładu przyciętego zmiennej zależnej do policzenia średniej/mediany. W oknie Wykres ramka-wąsy; więcej opcji wybieramy Odstające i ekstremalne z rozwijanej listy Odstające. KISIM, WIMiIP, AGH
18
Usuwanie odstających wartości
Dla każdej ze zmiennej liczbowej wykonuje się wykresy ramka-wąsy, by znaleźć wartości odstające. stosuje się następujące współczynniki: Ramka Wąs Odstające KISIM, WIMiIP, AGH
19
KISIM, WIMiIP, AGH
20
Reguła „3 sigma” KISIM, WIMiIP, AGH
21
Sposoby radzenia sobie z BD
Wyłączanie obserwacji z brakami danych – analiza kompletnych obserwacji Gdy obliczamy macierz korelacji (kowariancji) lub wykonujemy inną analizę wikłającą wiele zmiennych, której elementem jest obliczanie istotności, siły związku lub odległości między parami zmiennych (np. analiza czynnikowa, analiza skupień, regresja, modelowanie strukturalne) wyłączanie obserwacji z brakami danych może następować w dwojaki sposób: • Usuwanie obserwacjami (casewise); jeśli w którejkolwiek ze zmiennych użytych w analizie pojawia się brak danej – cała obserwacja wyłączana jest z obliczeń. • Usuwanie parami (pairwise); statystyki obliczane są w oparciu o wszystkie informacje dostępne dla każdej pary zmiennych z osobna. W wyniku zastosowania tej metody każda korelacja czy odległość może być obliczona w oparciu o inną próbę. KISIM, WIMiIP, AGH
22
- dla pary A,B obserwacji 1,4 i 7; - dla pary B,C obserwacji 1,2 i 7;
W przypadku obliczenia tabeli porównawczej średnich i odchyleń standardowych dla zmiennych A, B i C możemy przyjąć za podstawę obserwacje 1 i 7 (usuwanie obserwacjami) – co gwarantuje wykonanie analizy na tej samej próbie. w przypadku obliczania macierzy korelacji przy usuwaniu b.d. parami użyjemy: - dla pary A,B obserwacji 1,4 i 7; - dla pary B,C obserwacji 1,2 i 7; - dla pary A,C obserwacji 1,3 i 7. W przypadku usuwania obserwacjami wszystkie współczynniki obliczone zostaną w oparciu o obserwacje 1 i 7. X oznacza brak danej. O oznacza obecność danej. KISIM, WIMiIP, AGH
23
Zastępowanie braków danych – imputacja
Imputacja polega na przypisaniu wartości obserwacjom w miejsce braków danych. Przede wszystkim używamy jej w przypadku występowania braków danych w poszczególnych pozycjach zbioru danych, rzadziej w przypadku braku części danych. W przypadku analizy pojedynczych zmiennych w próbie, w której występuje niewielka liczba braków danych, często możemy poprzestać na analizie kompletnych obserwacji (usuwanie obserwacjami) bez wprowadzania dużych zniekształceń. W przypadku analiz wielowymiarowych, gdy braki danych rozproszone są po różnych obserwacjach, usuwanie obserwacjami łatwo może doprowadzić do radykalnego zmniejszenia efektywnej liczebności próby i obciążenia wyników analizy. Czasem jedna zmienna, istotna merytorycznie (np. dochód), może zawierać szczególnie dużo braków danych i prowadzić do utraty informacji zawartych w innych, bardziej kompletnych zmiennych w sytuacji ich łącznej analizy. KISIM, WIMiIP, AGH
24
Metody imputacji Podstawianie średniej –
średnia jest zachowana; odchylenie standardowe jest niedoszacowane; liczebność próby jest zawyżona. W przypadku zmiennych jakościowych, przy niewielkiej liczbie braków danych stosuje się podstawianie dominanty lub mediany. Średnia ogólna plus błąd losowy – Zachowane jest odchylenie standardowe. zniekształcenia (destrukcji) korelacji pomiędzy uzupełnioną zmienną a innymi zmiennymi. Średnia grupowa (plus błąd losowy) „Hot deck” sekwencyjny / hierarchiczny wielokrotni dawcy problem z granicami przy sortowaniu (np. przejście od mężczyzn do kobiet) słaba korelacja wewnątrz grup. Metoda regresyjna Imputacja wielokrotna KISIM, WIMiIP, AGH
25
KISIM, WIMiIP, AGH
26
Metoda EM (expectation-maximization)
Metoda EM jest oparta na zaawansowanym algorytmie iteracyjnym, który składa się z naprzemiennie występujących dwóch kroków (po wykonaniu wstępnych operacji inicjujących proces szacowania): • E – expectation, w którym następuje imputacja braków danych w oparciu o regresję • M – maximization, w którym metodą największej wiarygodności szacowana jest średnia i macierz kowariancji na postawie uzupełnionych danych . Etapy te powtarzane są aż do osiągnięcia zbieżności. Przy szacowaniu momentów metodą największej wiarygodności przyjmuje się założenie o rozkładzie, któremu podlegają zmienne w populacji. O to założenie oparta jest funkcja wiarygodności, która jest maksymalizowana (a raczej jej logarytm). Ocena oparta o metodę największej wiarygodności jest hipotetyczną wartością parametru w populacji, która maksymalizuje wiarygodność (prawdopodobieństwo) obserwowanej próby, innymi słowy bardziej prawdopodobnie od innych generuje próbę, którą aktualnie obserwujemy. KISIM, WIMiIP, AGH
27
Ważenie próby Ważenie wykonujemy (o ile wymaga tego sytuacja) z trzech podstawowych powodów, a są to: • kompensacja skutków niejednakowego prawdopodobieństwa dostania się do próby; • kompensacja skutków nieuzyskania danych o części osób (elementów) wylosowanych do próby; • chęć lepszego dostosowania rozkładu próby do znanego rozkładu wybranych cech w populacji. KISIM, WIMiIP, AGH
28
Rodzaje problemów badawczych
Obiekty różniące się poziomem szarości (stosowane metody przetwarzania obrazu: proste przekształcenia, binaryzacja) Obiekty oddzielone granicami (stosowane metody przetwarzania obrazu: filtry, detekcja granic ziarn) Obiekty różniące się teksturą (stosowane metody przetwarzania obrazu: transformata Fouriera) KISIM, WIMiIP, AGH
29
Binaryzacja Z górnym progiem Z dolnym progiem Z dwoma progami
Binaryzacja wykorzystująca histogram rozkładu stopni szarości KISIM, WIMiIP, AGH
30
Binaryzacja z histerezą
Wynikiem końcowym procesu jest zaliczenie do obrazu binarnego tych elementów, wykrytych przez główny zakres, które zawierają elementy wykryte również przez zakres pomocniczy. KISIM, WIMiIP, AGH
31
Ektrakcja Cech Liczba metod tworzenia nowych cech (ang. feature extraction) jest niezwykle duża, w zależności od pochodzenia danych, typów cech oryginalnych, celów analizy, czy też metody dalszej analizy. Cel analizy można rozbić ogólnie na uczenie z nauczycielem (przy danej cesze decyzyjnej) albo bez, przy czym metody tworzenia nowych cech bez nauczyciela można też stosować do danych z ustaloną decyzją. KISIM, WIMiIP, AGH
32
Spójność obszaru jest cechą topologiczną.
Cechy topologiczne Spójność obszaru jest cechą topologiczną. Obszar zawierający trzy spójne obiekty C=3. KISIM, WIMiIP, AGH
33
Liczba otworów jest niezmienną cechą topologiczną.
Cechy topologiczne Liczba otworów jest niezmienną cechą topologiczną. Obszary z dwoma otworami H=2 KISIM, WIMiIP, AGH
34
Liczba Eulera jest niezmienną cechą topologiczną.
Liczba Eulera jest zależnością pomiędzy spójnością obiektu i jego liczbą otworów: E = C - H Liczba Eulera jest niezmienną cechą topologiczną. KISIM, WIMiIP, AGH
35
KISIM, WIMiIP, AGH
36
Detekcja brzegów nie prowadzi do rozwiązania
Zliczanie obiektów Detekcja brzegów nie prowadzi do rozwiązania KISIM, WIMiIP, AGH
37
Ekstrakcja cech: zredukowany w wymiarach obraz (1) widmo obrazu (2)
powiązany łańcuch cech z linii i kolumn (3, 4) wektor cech z zapisanych współrzędnych punktów konturowego modelu twarzy (5) cechy lokalne takie jak: położenie źrenic, najbliższych i najdalszych punktów oczu, kącików ust itp. (6) każdy wiersz lub każdą kolumnę obrazu jako samodzielny wektora cech KISIM, WIMiIP, AGH
38
Algorytmy dyskretyzacji danych ciągłych.
Dyskretyzacja wartości atrybutów ciągłych polega na zastąpieniu każdej wartości atrybutu wartością dyskretną, odpowiadającą pewnemu przedziałowi ciągłych wartości oryginalnego atrybutu. Przedziały te są uporządkowane, co sprawia, że w wyniku dyskretyzacji otrzymujemy zamiast atrybutu ciągłego atrybut porządkowy o skończonej liczbie wartości. KISIM, WIMiIP, AGH
39
Dyskretyzacja naiwna. Polega ona na tym, że każdej nowej wartości rzeczywistej danego atrybutu przyporządkowujemy nową wartość naturalną. KISIM, WIMiIP, AGH
40
Dyskretyzacja według równej szerokości.
KISIM, WIMiIP, AGH
41
Wybór zmiennych
42
Skąd wziąć dane do analizy?
Punktem wyjścia wszystkich metod analitycznych jest tablica decyzyjna o ustalonych rozmiarach. Skąd wziąć taką tablicę w sytuacjach praktycznych? Budowa tablicy na podstawie surowych danych wejściowych przebiega w dwóch kierunkach - w zależności od tego, czy mamy nadmiar, czy niedobór cech (atrybutów) do analizy: selekcja cech (wybór najlepszych), tworzenie nowych cech (ekstrakcja cech). KISIM, WIMiIP, AGH
43
Czy dziś grać w golfa? KISIM, WIMiIP, AGH
44
Metody doboru zmiennych do modelu
Zmienne wybiera się na podstawie wiedzy dziedzinowej. Wymagania nt. własności zmiennych niezależnych: Są silnie skorelowanych ze zmienną, którą objaśniają. Są nieskorelowane lub co najwyżej słabo skorelowane ze sobą. Charakteryzują się dużą zmiennością. Jak wykorzystać współczynniki korelacji? KISIM, WIMiIP, AGH
45
Macierz korelacji jest macierzą kwadratową
wartości wszystkich elementów macierzy należą do przedziału < -1, 1 > (ponieważ są współczynnikami korelacji) wszystkie elementy leżące na głównej przekątnej tej macierzy równe są 1 (określa to stopień skorelowania zmiennej Xi z nią samą) jest to macierz symetryczna wyznacznik tej macierzy należy do przedziału < 0, 1 > KISIM, WIMiIP, AGH
46
Wybór zmiennych do modelu
W modelu powinny znaleźć się zmienne silnie skorelowane ze zmienną zależną i jak najsłabiej skorelowane między sobą. Aby wybrać optymalny model zawierający najsilniej skorelowane ze zmienną zależną zmienne niezależne stosuje się metody regresji krokowej: regresja krokowa postępująca – polega na kolejnym dołączaniu do modelu zmiennych objaśniających na podstawie statystyki F regresja krokowa wsteczna – budujemy model ze wszystkich dostępnych zmiennych, a następnie usuwamy z modelu najmniej istotne (statystyka F) Nie ma automatycznych, doskonałych metod doboru zmiennych. Obliczenia wspierane pakietem obliczeniowym należy korygować w oparciu o znajomość problemu. KISIM, WIMiIP, AGH
47
STATISTICA - Dobór i eliminacja zmiennych
Procedura ta sprawdza wpływ zmiennych na zmienną zależną automatycznie eliminuje puste zmienne (niezawierające żadnych wartości) i stałe (przyjmujące tę samą wartość dla wszystkich przypadków). procedura bada wpływ pojedynczych zmiennych na wielkość wyjściową. Sprawdza ona, na ile dla różnych wartości potencjalnego predykatora zmienna zależna przyjmuje różne wartości. KISIM, WIMiIP, AGH
48
Chi-kwadrat. Test niezależności
W celu zbadania zależności pomiędzy dwiema zmiennymi nominalnymi (kategorialnymi, jakościowymi). Dla zmiennych ilościowych test F Bazuje on na porównywaniu ze sobą wartości obserwowanych z wartościami oczekiwanymi (czyli takimi, które zakłada test, gdyby nie było żadnego związku pomiędzy zmiennymi) . Jeżeli różnica pomiędzy wartościami obserwowanymi a oczekiwanymi jest duża (po sprawdzeniu w tablicach statystycznych, np. p < 0,05) to można powiedzieć, że zachodzi relacja pomiędzy jedną zmienną a drugą. 2 policzymy ze wzoru gdzie: nij – liczba elementów próby, – liczebności teoretyczne, k – liczba kolumn tablicy niezależności, r – liczba wierszy tablicy niezależności. KISIM, WIMiIP, AGH
49
Chi-kwadrat. Test niezależności
Wartości chi-kwadrat zależą od: natężenia (siły) związku badanych cech – im większe różnice między liczebnością empiryczną a teoretyczną, tym większa wartość chi-kwadrat i tym samym większa zależność między cechami, od wielkości próby, przy czym chi-kwadrat liczymy tylko dla dużych prób, od stopnia szczegółowości danych (przy czym w każdym polu tabeli powinno być co najmniej 5, a więc czasami trzeba łączyć wiersze lub kolumny). KISIM, WIMiIP, AGH
50
Dobór i eliminacja zmiennych
KISIM, WIMiIP, AGH
51
Korelacje nieparametryczne
Trzy najpowszechniejsze nieparamtryczne współczynniki korelacji: R Spearmana tau Kendalla współczynnik gamma Warto zauważyć, że statystyka chi-kwadrat obliczana dla dwudzielczych tabeli liczności również jest dokładną miarą współzależności dwóch (stabelaryzowanych) zmiennych, a w odróżnieniu od miar korelacji opisanych niżej, może być stosowana dla zmiennych jakościowych (tzn. wyrażonych na skali nominalnej). KISIM, WIMiIP, AGH
52
KISIM, WIMiIP, AGH
53
korelacje korzystne dla modelu współczynniki > r*
α=0,05 tα=2,1009 r*=0,4438 korelacje korzystne dla modelu współczynniki > r* korelacje niekorzystne dla modelu KISIM, WIMiIP, AGH
54
Metoda analizy grafów (metoda Bartosiewicz)
Metoda zmierza do tego, by spośród wszystkich zmiennych objaśniających wyodrębnić grupy zmiennych skorelowanych między sobą oraz znaleźć zmienne, z których żadna nie jest skorelowana z pozostałymi zmiennymi objaśniającymi. Następnie spośród tych grup zmiennych wybiera się zmienne mocniej skorelowane ze zmienną objaśnianą i wprowadza się je do relacji modelu. Do modelu wchodzą również wszystkie zmienne nieskorelowane między sobą, ale skorelowane ze zmienną objaśnianą. KISIM, WIMiIP, AGH
55
Metoda analizy grafów (metoda Bartosiewicz)
Obliczenie współczynników korelacji zmiennych objaśniających ze zmienną objaśnianą rj oraz zmiennych objaśniających pomiędzy sobą rij. Testowanie istotności współczynników korelacji Odrzucenie zmiennych X nieskorelowanych ze zmienna objaśnianą i konstrukcja macierzy R' z zerami w miejscu nieistotnych współczynników rij. Budowa grafu powiązań między zmiennymi objaśniającymi i wybór zmiennych do modelu, tworząc w ten sposób k grafów – grup zmiennych, odpowiadających przyszłym k zmiennym objaśniającym modelu. Do zmiennych objaśniających zalicza się: zmienne, które w odwzorowaniu tworzą grafy zerowe (izolowane), zmienne o maksymalnej liczbie łuków wybrane z każdego grafu spójnego, jeżeli w każdym grafie spójnym jest więcej niż jedna zmienna o takiej samej maksymalnej liczbie łuków, to wybiera się spośród tych zmiennych tę, która jest najbardziej skorelowana ze zmienną objaśnianą. KISIM, WIMiIP, AGH
56
X1, r*=0,4 r(X2)=3 X2, do modelu wchodzą: X5, KISIM, WIMiIP, AGH
57
Liniowa postać modelu:
α=0,05 tα=2,1009 r*=0,4438 wszystkie zmienne istotne współczynniki > r* do modelu wchodzą: X1, X2, X4 Liniowa postać modelu: Y=a0 + a1X1 + a2X2 + a4X4+ e KISIM, WIMiIP, AGH
58
Redukcja przestrzeni cech
KISIM, WIMiIP, AGH
59
Redukcja przestrzeni cech
Redukcji danych można dokonać na dwa podstawowe sposoby: poprzez ekstrakcję cech - wybieramy tylko niektóre, najważniejsze cechy redukcję przestrzeni cech - na przykład za pomocą PCA (analizy składowych głównych), czy grupowania: LDA (Liniową Analizę Dyskryminacyjną) czy KLT (transformacji Karhunen'a-Loeve'a macierzy kowariancji). KISIM, WIMiIP, AGH
60
Analiza składowych głównych
Celem analizy składowych głównych (Principal Components Analysis - PCA) jest redukcja liczby wymiarów PCA ma zastosowanie szczególnie tam, gdzie mamy do czynienia z dużą liczbą zmiennych wejściowych, od których uzależnić chcemy pewną liczbę zmiennych wyjściowych, a nie mamy zbyt wielu przypadków (obserwacji). Metoda PCA łagodzi problem wymiarowości "mapując" predyktory (których jest wiele) na nowe zmienne - składowe główne, których jest zwykle znacznie mniej. Oczywiście, przy takim przekształceniu zachodzi pewna strata informacji, jednak istota PCA polega na tym, że zachowuje najwięcej, jak to tylko możliwe, oryginalnej informacji. A priori nie wiadomo ilu składowych głównych trzeba użyć by nie stracić istotnej informacji. Kryterium są tu wartości własne, przyporządkowane każdej z C składowych głównych. Źródło: STATISTICA Electronic Manual - Statsoft KISIM, WIMiIP, AGH
61
Analiza składowych głównych
Musimy poprawnie znaleźć odpowiednią liczbę wartości własnych, dostatecznie dobrze odzwierciedlających oryginalne dane. Tą liczbę nowych zmiennych (składowych głównych) nazwać możemy liczbą wewnętrznych wymiarów. Zgodnie z ideą PCA oczekujemy, że kilka pierwszych składowych głównych da nam wgląd w podstawową zmienność danych i pozwoli lepiej zrozumieć zawartą w nich informację. Podobnie jak i w innych analizach statystycznych potrzebne jest w PCA pewne, wstępne przetworzenie danych (pre-processing), tak by ogólne założenia metody były jak najlepiej spełnione. W ten sposób konstruowana jest nowa przestrzeń obserwacji, w której najwięcej zmienności wyjaśniają początkowe czynniki. PCA jest często używana do zmniejszania rozmiaru zbioru danych statystycznych, poprzez odrzucenie ostatnich czynników. Można też poszukać merytorycznej interpretacji czynników, zależnej od rodzaju danych, co pozwala lepiej zrozumieć naturę danych, choć bywa trudne przy większej liczbie badanych zmiennych. KISIM, WIMiIP, AGH
62
Wstępne przetwarzanie danych
W analizach wielowymiarowych często mamy do czynienia z sytuacją, gdy zmienne mają bardzo różne zakresy zmienności (różne wariancje). Na wykresie rozrzutu przedstawione są przykładowe, dwuwymiarowe dane. Obie skale wykresu są takie same, w związku z czym, przed transformacją (czerwone punkty) wydaje się, że większość zmienności zawiera się w drugim wymiarze X2. Jednak po przeskalowaniu zmiennej X1 (niebieskie punkty) widać, że obie zmienne mają zmienność podobnego typu. Konieczne jest więc takie przeskalowanie zmiennych, by żadna nie miała sztucznie zawyżonego, czy zaniżonego wpływu na analizę, tylko z powodu skali. KISIM, WIMiIP, AGH
63
Wyśrodkowanie średniej i unormowanie wariancji
Najczęściej stosowanym sposobem skalowania jest skalowanie do jednostkowej wariancji. Każda ze zmiennych jest tak przekształcana, by po transformacji miała wariancje równą jeden. Daje to wszystkim zmiennym jednakowe szanse w byciu reprezentowaną w modelu PCA. Można też zastosować centrowanie średnich, gdzie środek nowego układu współrzędnych umieszcza się w punkcie wielowymiarowej średniej (patrz poniższy rysunek). Jest to wygodne przekształcenie pozwalające łatwiej operować zmiennymi w dalszych analizach. KISIM, WIMiIP, AGH
64
Przykład załóżmy, że nasze dane X są dwuwymiarowe. Dane te będziemy reprezentować za pomocą jednej składowej głównej. Składową tę oznaczmy przez PC1. Kierunek osi PC1 jest taki, że składowa ta przejmuje najwięcej (jak to tylko możliwe) zmienności danych. Każdy punkt oryginalnych danych xi = (xi1, xi2) może zostać zrzutowany na oś PC1. Wartość rzutu, czyli pozycja punktu na osi PC1 - ti jest wartością danej obserwacji w sensie składowej głównej. KISIM, WIMiIP, AGH
65
Przykład Jeśli uogólnimy przykład dla dwóch zmiennych na wiele zmiennych, to obliczenia staną się bardziej złożone, ale podstawowa zasada wyrażania dwóch lub więcej zmiennych w postaci pojedynczego czynnika pozostaje taka sama. KISIM, WIMiIP, AGH
66
Ile czynników wyodrębnić
Ile czynników chcemy wyodrębnić? Zauważmy, że kolejne wyodrębniane czynniki wyjaśniają coraz mniej zmienności. Decyzja o tym, kiedy przerwać wyodrębnianie czynników zależy zasadniczo od tego, czy pozostała tylko niewielka "losowa" zmienność. Jest to decyzja z natury arbitralna; rozwinięto jednak różne wskazówki Kryterium Kaisera. wartość własna > 1 od tego miejsca łagodny spadek - osypisko. Test osypiska. KISIM, WIMiIP, AGH
67
Analiza czynnikowa Główne zastosowania czynnikowych technik analitycznych to: (1) redukcja liczby zmiennych (PCA) (2) wykrywanie struktury w związkach między zmiennymi, to znaczy klasyfikacja zmiennych. (Konfirmacyjna analiza czynnikowa, Analiza korespondencji.) Czynniki główne a składowe główne; w analizie składowych głównych zakładamy, że całkowita zmienność wskaźnika powinna zostać użyta w analizie, w analizie czynników głównych używamy tylko tej zmienności wskaźnika, którą dzieli on z innymi wskaźnikami. W większości przypadków obie metody dają bardzo podobne wyniki. Jednak analiza składowych głównych jest często preferowana jako metoda redukcji danych, podczas gdy analiza czynników głównych jest chętniej stosowana, gdy celem jest wykrycie struktury KISIM, WIMiIP, AGH
68
STATISTICA – wybór predyktorów
Budujemy w nim ranking zmiennych i wybieramy jedynie te zmienne, które są w sposób istotny powiązane z modelowanym zjawiskiem. Miarą szacowania mocy predykcyjnej jest wskaźnik information value (IV) Wyznacznikiem mocy predykcyjnej poszczególnych wartości lub przedziałów wartości zmiennych prognozujących jest miara Weight of Evidence (WoE) KISIM, WIMiIP, AGH
69
Przykłady w STATISTICA
KISIM, WIMiIP, AGH
70
Macierz korelacji KISIM, WIMiIP, AGH
71
Dobór i eliminacja zmiennych
KISIM, WIMiIP, AGH
72
Ważność predyktorów KISIM, WIMiIP, AGH
73
Tabele przestawne Excel
Liczba godzin w pracy w tygodniu Czy stan cywilny, zarobki oraz płeć wpływa na rozkład czasu pracy? Kto pracuje dłużej? KISIM, WIMiIP, AGH
74
KISIM, WIMiIP, AGH
75
Liczba godzin w pracy w tygodniu
KISIM, WIMiIP, AGH
76
Zarobki vs. Rasa vs. Edukacja
Rasa wpływa na zarobki – proporcjonalnie więcej białych zarabia powyżej 50K Wykształcenie wpływa na zarobki Inne rasy muszą uczyć się dłużej, żeby zarabiać powyżej 50K KISIM, WIMiIP, AGH
77
Przykład 1a (ANOVA) Wiadomo, że związki chemiczne stosowane w leczeniu nowotworów mogą powodować obniżenie poziomu hemoglobiny we krwi (niedokrwistość). W przypadku pewnego związku chemicznego stosowanego w leczeniu nowotworów (Lek A) podejrzewano, że przy długotrwałym stosowaniu powoduje niedokrwistość (stężenie hemoglobiny we krwi poniżej 11g/dl) w większym stopniu niż inne leki tego typu. Do badania włączono grupę 24 osób z rozpoznaniem nowotworu. 10 z nich podawano wspomniany lek A. Pozostałym pacjentom podawano inne leki o podobnym działaniu. 7 pacjentów zażywało lek B, a 7 lek C. W momencie przystąpienie do badania u wszystkich pacjentów poziom hemoglobiny we krwi był prawidłowy. Po zakończonej obserwacji u pacjentów ponownie wykonano morfologię krwi. Wyniki badania poziomu hemoglobiny u badanych były następujące: KISIM, WIMiIP, AGH
78
Przykład 1b Lek A Lek B Lek C 10,2 14,3 10,4 8,7 14,1 12 12,5 17 13,6 13,8 13,2 13,5 7,6 11,6 14,7 8,2 10,9 15,3 9,8 9,3 14,9 14,2 Czy pacjenci przyjmujący lek A po zakończeniu terapii mieli niższy poziom hemoglobiny we krwi niż pacjenci leczeni innymi lekami? KISIM, WIMiIP, AGH
79
Przykład 1c Stąd wniosek, że poziom hemoglobiny u pacjentów stosujących różne leki różni się istotnie. Zakładamy normalność rozkładów oraz jednorodność wariancji w grupach. KISIM, WIMiIP, AGH
80
Przykład 1d KISIM, WIMiIP, AGH
81
KISIM, WIMiIP, AGH
82
Tabele wielodzielcze KISIM, WIMiIP, AGH
83
KISIM, WIMiIP, AGH
84
KISIM, WIMiIP, AGH
85
KISIM, WIMiIP, AGH
86
KISIM, WIMiIP, AGH
87
Tabele raportujące KISIM, WIMiIP, AGH
88
KISIM, WIMiIP, AGH
89
Płace – wykres rozrzutu
KISIM, WIMiIP, AGH
90
Macierz wykresów rozrzutu
KISIM, WIMiIP, AGH
91
Wykresy interakcji (ANOVA)
Na wszystkich poziomach edukacji kobiety zarabiają mniej Najmniejsza różnica dla „średnie ogólne” KISIM, WIMiIP, AGH
92
Skategoryzowane wykresy ramka-wąsy, dwa czynniki:
Przekroje Skategoryzowane wykresy ramka-wąsy, dwa czynniki: Wykształcenie, Płeć KISIM, WIMiIP, AGH
93
Rozkłady dwuwymiarowe histogramy skategoryzowane
Tabela dwudzielcza histogram skategoryzowany KISIM, WIMiIP, AGH
Podobne prezentacje
© 2024 SlidePlayer.pl Inc.
All rights reserved.