Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

Przygotowanie i wstępna obróbka danych

Podobne prezentacje


Prezentacja na temat: "Przygotowanie i wstępna obróbka danych"— Zapis prezentacji:

1 Przygotowanie i wstępna obróbka danych
Eksploracja Danych Przygotowanie i wstępna obróbka danych postacie danych, wczytywanie danych, ocena jakości, filtrowanie oraz czyszczenie danych, konsolidacja danych, przekształcenia danych. Krzysztof Regulski, WIMiIP, KISiM,

2 Czyszczenie danych Pierwszym krokiem po zebraniu danych powinna być wstępna analiza polegająca na oczyszczeniu zbioru danych z wartości odstających, spowodowanych np. błędami grubymi Błędy grube wynikają najczęściej z jakiegoś poważnego przeoczenia, pomyłki – np. złego odczytania skali miernika, z pomylenia miejsca zapisu przecinka podczas przetwarzania pomiarów, zmierzenie nie tego obiektu itp. KISIM, WIMiIP, AGH

3 Najczęściej stosowane:
Jeżeli przygotowany zbiór danych będzie zawierał wartości odstające, wtedy analizy, które będą wykonywane w następnej kolejności mogą dać błędne wyniki. Najczęściej stosowane: test Grubbsa, test trzech sigma (normalny), Tukeya test Dixona, test Cochrana, test 3d, kryterium Chauveneta. KISIM, WIMiIP, AGH

4 Test Grubbsa W celu sprawdzenia, czy w zbiorze danych jest wartość odstająca ze względu na wartość średnią, w pierwszej kolejności musimy znaleźć kandydata na wartość odstającą, czyli wartość która jest najbardziej oddalona od ogólnej średniej. Następnie wartość bezwzględną różnicy pomiędzy wartością średnią a wartością kandydata należy podzielić przez odchylenie standardowe. Otrzymujemy w ten sposób wartość statystyki zwanej statystyką Grubbsa: Pozostaje nam otrzymaną wartość G porównać z wartością krytyczną, którą może my odczytać z odpowiednich tablic. Jeżeli G będzie zbyt wysokie, wtedy należy uznać kandydata za wartość odstającą. KISIM, WIMiIP, AGH

5 STATISTICA: Moduł Podstawowe statystyki i tabele
Aby wykonać ten test, idziemy do okna Statystyki opisowe i wybierzmy kartę Odporne. Karta ta zawiera opcje umożliwiające włączenie do arkusza wynikowego średniej Winsora, średniej przyciętej oraz testu Grubbsa. Test Grubbsa na obserwacje odstające może być użyty w celu wskazania jednej obserwacji odstającej podczas jednego przebiegu. Test ten polega na wyliczeniu jak daleko potencjalna obserwacja odstająca znajduje się od pozostałych wartości w zbiorze danych. Statystyka testu Grubbsa (G) liczona jest jako stosunek największego bezwzględnego odchylenia średniej z próby do odchylenia standardowego próby KISIM, WIMiIP, AGH

6 KISIM, WIMiIP, AGH

7 Zamiana obserwacji odstających.
Po tym jak wskazano obserwacje odstające, do badacza należy określenie czy obserwacje te przedstawiają szczególną własność danej zmiennej czy są wynikiem błędu albo innych anomalii, które nie powinny być modelowane. W programie STATISTICA znajdują się opcję czyszczenia danych, które mogą być wykorzystane w celu zamiany obserwacji odstających. Dostęp do tej opcji możliwy jest przez wybór polecenia Zamień odstające z menu Dane - Czyszczenie danych. KISIM, WIMiIP, AGH

8 Okno Zamiana wartości odstających i rzadkich zawiera różne testy umożliwiające identyfikację obserwacji odstających w zmiennych ciągłych i jakościowych. W przypadku zmiennych jakościowych, STATISTICA za obserwacje odstające uzna te przypadki, których kod lub wartość tekstowa występują rzadziej niż określona częstotliwość. W przypadku zmiennych ciągłych można wybrać jeden z wielu dostępnych testów. KISIM, WIMiIP, AGH

9 Test Grubbsa KISIM, WIMiIP, AGH

10 Zamiana obserwacji odstających.
2 1 KISIM, WIMiIP, AGH

11 KISIM, WIMiIP, AGH

12 Metoda graficzna KISIM, WIMiIP, AGH

13 Wykres ramka-wąsy Podejście graficzne. Popularnym sposobem wykrywania obserwacji odstających jest stworzenie wykresu ramkowego. Aby to zrobić, należy kliknąć przycisk Zmienne, który znajduje się w oknie Statystyki opisowe. Otrzymamy okno wyboru zmiennej. Ponieważ interesuje nas znalezienie jakiejkolwiek obserwacji odstającej w naszym zbiorze, klikamy przycisk Wszystkie oraz OK. Następnie, na karcie Podstawowe, klikamy Wykres ramka-wąsy. KISIM, WIMiIP, AGH

14 Obserwacje odstające Aby włączyć pokazywanie takich obserwacji, należy dwukrotnie kliknąć w tło wykresu. Na ekranie pojawi się okno Opcje wykresu; przechodzimy w nim na kartę Wykres właściwy: Ramka-wąsy. KISIM, WIMiIP, AGH

15 Przykład: Wykrywanie obserwacji odstających
Podejście graficzne. Popularnym sposobem wykrywania obserwacji odstających jest stworzenie wykresu ramkowego. KISIM, WIMiIP, AGH

16 Wykres właściwy: Ramka-wąsy.
Widać wyraźnie, że zmienna N_ZATR cechuje się większą zmiennością niż pozostałe zmienne. Na tym początkowym wykresie potencjalne obserwacje odstające i ekstremalne nie są wskazane. Aby włączyć tę opcję, należy dwukrotnie kliknąć w tło wykresu aby wyświetlić okno Wszystkie opcje, a następnie wybrać kartę Wykres właściwy: Ramka-wąsy. KISIM, WIMiIP, AGH

17 wybieramy dodatkowe opcje określające wykres, kontrolujące wyświetlanie obserwacji odstających i ekstremalnych oraz wykorzystanie rozkładu przyciętego zmiennej zależnej do policzenia średniej/mediany. W oknie Wykres ramka-wąsy; więcej opcji wybieramy Odstające i ekstremalne z rozwijanej listy Odstające. KISIM, WIMiIP, AGH

18 Usuwanie odstających wartości
Dla każdej ze zmiennej liczbowej wykonuje się wykresy ramka-wąsy, by znaleźć wartości odstające. stosuje się następujące współczynniki: Ramka Wąs Odstające KISIM, WIMiIP, AGH

19 KISIM, WIMiIP, AGH

20 Reguła „3 sigma” KISIM, WIMiIP, AGH

21 Sposoby radzenia sobie z BD
Wyłączanie obserwacji z brakami danych – analiza kompletnych obserwacji Gdy obliczamy macierz korelacji (kowariancji) lub wykonujemy inną analizę wikłającą wiele zmiennych, której elementem jest obliczanie istotności, siły związku lub odległości między parami zmiennych (np. analiza czynnikowa, analiza skupień, regresja, modelowanie strukturalne) wyłączanie obserwacji z brakami danych może następować w dwojaki sposób: • Usuwanie obserwacjami (casewise); jeśli w którejkolwiek ze zmiennych użytych w analizie pojawia się brak danej – cała obserwacja wyłączana jest z obliczeń. • Usuwanie parami (pairwise); statystyki obliczane są w oparciu o wszystkie informacje dostępne dla każdej pary zmiennych z osobna. W wyniku zastosowania tej metody każda korelacja czy odległość może być obliczona w oparciu o inną próbę. KISIM, WIMiIP, AGH

22 - dla pary A,B obserwacji 1,4 i 7; - dla pary B,C obserwacji 1,2 i 7;
W przypadku obliczenia tabeli porównawczej średnich i odchyleń standardowych dla zmiennych A, B i C możemy przyjąć za podstawę obserwacje 1 i 7 (usuwanie obserwacjami) – co gwarantuje wykonanie analizy na tej samej próbie. w przypadku obliczania macierzy korelacji przy usuwaniu b.d. parami użyjemy: - dla pary A,B obserwacji 1,4 i 7; - dla pary B,C obserwacji 1,2 i 7; - dla pary A,C obserwacji 1,3 i 7. W przypadku usuwania obserwacjami wszystkie współczynniki obliczone zostaną w oparciu o obserwacje 1 i 7. X oznacza brak danej. O oznacza obecność danej. KISIM, WIMiIP, AGH

23 Zastępowanie braków danych – imputacja
Imputacja polega na przypisaniu wartości obserwacjom w miejsce braków danych. Przede wszystkim używamy jej w przypadku występowania braków danych w poszczególnych pozycjach zbioru danych, rzadziej w przypadku braku części danych. W przypadku analizy pojedynczych zmiennych w próbie, w której występuje niewielka liczba braków danych, często możemy poprzestać na analizie kompletnych obserwacji (usuwanie obserwacjami) bez wprowadzania dużych zniekształceń. W przypadku analiz wielowymiarowych, gdy braki danych rozproszone są po różnych obserwacjach, usuwanie obserwacjami łatwo może doprowadzić do radykalnego zmniejszenia efektywnej liczebności próby i obciążenia wyników analizy. Czasem jedna zmienna, istotna merytorycznie (np. dochód), może zawierać szczególnie dużo braków danych i prowadzić do utraty informacji zawartych w innych, bardziej kompletnych zmiennych w sytuacji ich łącznej analizy. KISIM, WIMiIP, AGH

24 Metody imputacji Podstawianie średniej –
średnia jest zachowana; odchylenie standardowe jest niedoszacowane; liczebność próby jest zawyżona. W przypadku zmiennych jakościowych, przy niewielkiej liczbie braków danych stosuje się podstawianie dominanty lub mediany. Średnia ogólna plus błąd losowy – Zachowane jest odchylenie standardowe. zniekształcenia (destrukcji) korelacji pomiędzy uzupełnioną zmienną a innymi zmiennymi. Średnia grupowa (plus błąd losowy) „Hot deck” sekwencyjny / hierarchiczny wielokrotni dawcy problem z granicami przy sortowaniu (np. przejście od mężczyzn do kobiet) słaba korelacja wewnątrz grup. Metoda regresyjna Imputacja wielokrotna KISIM, WIMiIP, AGH

25 KISIM, WIMiIP, AGH

26 Metoda EM (expectation-maximization)
Metoda EM jest oparta na zaawansowanym algorytmie iteracyjnym, który składa się z naprzemiennie występujących dwóch kroków (po wykonaniu wstępnych operacji inicjujących proces szacowania): • E – expectation, w którym następuje imputacja braków danych w oparciu o regresję • M – maximization, w którym metodą największej wiarygodności szacowana jest średnia i macierz kowariancji na postawie uzupełnionych danych . Etapy te powtarzane są aż do osiągnięcia zbieżności. Przy szacowaniu momentów metodą największej wiarygodności przyjmuje się założenie o rozkładzie, któremu podlegają zmienne w populacji. O to założenie oparta jest funkcja wiarygodności, która jest maksymalizowana (a raczej jej logarytm). Ocena oparta o metodę największej wiarygodności jest hipotetyczną wartością parametru w populacji, która maksymalizuje wiarygodność (prawdopodobieństwo) obserwowanej próby, innymi słowy bardziej prawdopodobnie od innych generuje próbę, którą aktualnie obserwujemy. KISIM, WIMiIP, AGH

27 Ważenie próby Ważenie wykonujemy (o ile wymaga tego sytuacja) z trzech podstawowych powodów, a są to: • kompensacja skutków niejednakowego prawdopodobieństwa dostania się do próby; • kompensacja skutków nieuzyskania danych o części osób (elementów) wylosowanych do próby; • chęć lepszego dostosowania rozkładu próby do znanego rozkładu wybranych cech w populacji. KISIM, WIMiIP, AGH

28 Rodzaje problemów badawczych
Obiekty różniące się poziomem szarości (stosowane metody przetwarzania obrazu: proste przekształcenia, binaryzacja) Obiekty oddzielone granicami (stosowane metody przetwarzania obrazu: filtry, detekcja granic ziarn) Obiekty różniące się teksturą (stosowane metody przetwarzania obrazu: transformata Fouriera) KISIM, WIMiIP, AGH

29 Binaryzacja Z górnym progiem Z dolnym progiem Z dwoma progami
Binaryzacja wykorzystująca histogram rozkładu stopni szarości KISIM, WIMiIP, AGH

30 Binaryzacja z histerezą
Wynikiem końcowym procesu jest zaliczenie do obrazu binarnego tych elementów, wykrytych przez główny zakres, które zawierają elementy wykryte również przez zakres pomocniczy. KISIM, WIMiIP, AGH

31 Ektrakcja Cech Liczba metod tworzenia nowych cech (ang. feature extraction) jest niezwykle duża, w zależności od pochodzenia danych, typów cech oryginalnych, celów analizy, czy też metody dalszej analizy. Cel analizy można rozbić ogólnie na uczenie z nauczycielem (przy danej cesze decyzyjnej) albo bez, przy czym metody tworzenia nowych cech bez nauczyciela można też stosować do danych z ustaloną decyzją. KISIM, WIMiIP, AGH

32 Spójność obszaru jest cechą topologiczną.
Cechy topologiczne Spójność obszaru jest cechą topologiczną. Obszar zawierający trzy spójne obiekty C=3. KISIM, WIMiIP, AGH

33 Liczba otworów jest niezmienną cechą topologiczną.
Cechy topologiczne Liczba otworów jest niezmienną cechą topologiczną. Obszary z dwoma otworami H=2 KISIM, WIMiIP, AGH

34 Liczba Eulera jest niezmienną cechą topologiczną.
Liczba Eulera jest zależnością pomiędzy spójnością obiektu i jego liczbą otworów: E = C - H Liczba Eulera jest niezmienną cechą topologiczną. KISIM, WIMiIP, AGH

35 KISIM, WIMiIP, AGH

36 Detekcja brzegów nie prowadzi do rozwiązania
Zliczanie obiektów Detekcja brzegów nie prowadzi do rozwiązania KISIM, WIMiIP, AGH

37 Ekstrakcja cech: zredukowany w wymiarach obraz (1) widmo obrazu (2)
powiązany łańcuch cech z linii i kolumn (3, 4) wektor cech z zapisanych współrzędnych punktów konturowego modelu twarzy (5) cechy lokalne takie jak: położenie źrenic, najbliższych i najdalszych punktów oczu, kącików ust itp. (6) każdy wiersz lub każdą kolumnę obrazu jako samodzielny wektora cech KISIM, WIMiIP, AGH

38 Algorytmy dyskretyzacji danych ciągłych.
Dyskretyzacja wartości atrybutów ciągłych polega na zastąpieniu każdej wartości atrybutu wartością dyskretną, odpowiadającą pewnemu przedziałowi ciągłych wartości oryginalnego atrybutu. Przedziały te są uporządkowane, co sprawia, że w wyniku dyskretyzacji otrzymujemy zamiast atrybutu ciągłego atrybut porządkowy o skończonej liczbie wartości. KISIM, WIMiIP, AGH

39 Dyskretyzacja naiwna. Polega ona na tym, że każdej nowej wartości rzeczywistej danego atrybutu przyporządkowujemy nową wartość naturalną. KISIM, WIMiIP, AGH

40 Dyskretyzacja według równej szerokości.
KISIM, WIMiIP, AGH

41 Wybór zmiennych

42 Skąd wziąć dane do analizy?
Punktem wyjścia wszystkich metod analitycznych jest tablica decyzyjna o ustalonych rozmiarach. Skąd wziąć taką tablicę w sytuacjach praktycznych? Budowa tablicy na podstawie surowych danych wejściowych przebiega w dwóch kierunkach - w zależności od tego, czy mamy nadmiar, czy niedobór cech (atrybutów) do analizy: selekcja cech (wybór najlepszych), tworzenie nowych cech (ekstrakcja cech). KISIM, WIMiIP, AGH

43 Czy dziś grać w golfa? KISIM, WIMiIP, AGH

44 Metody doboru zmiennych do modelu
Zmienne wybiera się na podstawie wiedzy dziedzinowej. Wymagania nt. własności zmiennych niezależnych: Są silnie skorelowanych ze zmienną, którą objaśniają. Są nieskorelowane lub co najwyżej słabo skorelowane ze sobą. Charakteryzują się dużą zmiennością. Jak wykorzystać współczynniki korelacji? KISIM, WIMiIP, AGH

45 Macierz korelacji jest macierzą kwadratową
wartości wszystkich elementów macierzy należą do przedziału < -1, 1 > (ponieważ są współczynnikami korelacji) wszystkie elementy leżące na głównej przekątnej tej macierzy równe są 1 (określa to stopień skorelowania zmiennej Xi z nią samą) jest to macierz symetryczna wyznacznik tej macierzy należy do przedziału < 0, 1 > KISIM, WIMiIP, AGH

46 Wybór zmiennych do modelu
W modelu powinny znaleźć się zmienne silnie skorelowane ze zmienną zależną i jak najsłabiej skorelowane między sobą. Aby wybrać optymalny model zawierający najsilniej skorelowane ze zmienną zależną zmienne niezależne stosuje się metody regresji krokowej: regresja krokowa postępująca – polega na kolejnym dołączaniu do modelu zmiennych objaśniających na podstawie statystyki F regresja krokowa wsteczna – budujemy model ze wszystkich dostępnych zmiennych, a następnie usuwamy z modelu najmniej istotne (statystyka F) Nie ma automatycznych, doskonałych metod doboru zmiennych. Obliczenia wspierane pakietem obliczeniowym należy korygować w oparciu o znajomość problemu. KISIM, WIMiIP, AGH

47 STATISTICA - Dobór i eliminacja zmiennych
Procedura ta sprawdza wpływ zmiennych na zmienną zależną automatycznie eliminuje puste zmienne (niezawierające żadnych wartości) i stałe (przyjmujące tę samą wartość dla wszystkich przypadków). procedura bada wpływ pojedynczych zmiennych na wielkość wyjściową. Sprawdza ona, na ile dla różnych wartości potencjalnego predykatora zmienna zależna przyjmuje różne wartości. KISIM, WIMiIP, AGH

48 Chi-kwadrat. Test niezależności
W celu zbadania zależności pomiędzy dwiema zmiennymi nominalnymi (kategorialnymi, jakościowymi). Dla zmiennych ilościowych test F Bazuje on na porównywaniu ze sobą wartości obserwowanych z wartościami oczekiwanymi (czyli takimi, które zakłada test, gdyby nie było żadnego związku pomiędzy zmiennymi) . Jeżeli różnica pomiędzy wartościami obserwowanymi a oczekiwanymi jest duża (po sprawdzeniu w tablicach statystycznych, np. p < 0,05) to można powiedzieć, że zachodzi relacja pomiędzy jedną zmienną a drugą. 2 policzymy ze wzoru gdzie: nij – liczba elementów próby, – liczebności teoretyczne, k – liczba kolumn tablicy niezależności, r – liczba wierszy tablicy niezależności. KISIM, WIMiIP, AGH

49 Chi-kwadrat. Test niezależności
Wartości chi-kwadrat zależą od: natężenia (siły) związku badanych cech – im większe różnice między liczebnością empiryczną a teoretyczną, tym większa wartość chi-kwadrat i tym samym większa zależność między cechami, od wielkości próby, przy czym chi-kwadrat liczymy tylko dla dużych prób, od stopnia szczegółowości danych (przy czym w każdym polu tabeli powinno być co najmniej 5, a więc czasami trzeba łączyć wiersze lub kolumny). KISIM, WIMiIP, AGH

50 Dobór i eliminacja zmiennych
KISIM, WIMiIP, AGH

51 Korelacje nieparametryczne
Trzy najpowszechniejsze nieparamtryczne współczynniki korelacji: R Spearmana tau Kendalla współczynnik gamma Warto zauważyć, że statystyka chi-kwadrat obliczana dla dwudzielczych tabeli liczności również jest dokładną miarą współzależności dwóch (stabelaryzowanych) zmiennych, a w odróżnieniu od miar korelacji opisanych niżej, może być stosowana dla zmiennych jakościowych (tzn. wyrażonych na skali nominalnej). KISIM, WIMiIP, AGH

52 KISIM, WIMiIP, AGH

53 korelacje korzystne dla modelu współczynniki > r*
α=0,05 tα=2,1009 r*=0,4438 korelacje korzystne dla modelu współczynniki > r* korelacje niekorzystne dla modelu KISIM, WIMiIP, AGH

54 Metoda analizy grafów (metoda Bartosiewicz)
Metoda zmierza do tego, by spośród wszystkich zmiennych objaśniających wyodrębnić grupy zmiennych skorelowanych między sobą oraz znaleźć zmienne, z których żadna nie jest skorelowana z pozostałymi zmiennymi objaśniającymi. Następnie spośród tych grup zmiennych wybiera się zmienne mocniej skorelowane ze zmienną objaśnianą i wprowadza się je do relacji modelu. Do modelu wchodzą również wszystkie zmienne nieskorelowane między sobą, ale skorelowane ze zmienną objaśnianą. KISIM, WIMiIP, AGH

55 Metoda analizy grafów (metoda Bartosiewicz)
Obliczenie współczynników korelacji zmiennych objaśniających ze zmienną objaśnianą rj oraz zmiennych objaśniających pomiędzy sobą rij. Testowanie istotności współczynników korelacji Odrzucenie zmiennych X nieskorelowanych ze zmienna objaśnianą i konstrukcja macierzy R' z zerami w miejscu nieistotnych współczynników rij. Budowa grafu powiązań między zmiennymi objaśniającymi i wybór zmiennych do modelu, tworząc w ten sposób k grafów – grup zmiennych, odpowiadających przyszłym k zmiennym objaśniającym modelu. Do zmiennych objaśniających zalicza się: zmienne, które w odwzorowaniu tworzą grafy zerowe (izolowane), zmienne o maksymalnej liczbie łuków wybrane z każdego grafu spójnego, jeżeli w każdym grafie spójnym jest więcej niż jedna zmienna o takiej samej maksymalnej liczbie łuków, to wybiera się spośród tych zmiennych tę, która jest najbardziej skorelowana ze zmienną objaśnianą. KISIM, WIMiIP, AGH

56 X1, r*=0,4 r(X2)=3 X2, do modelu wchodzą: X5, KISIM, WIMiIP, AGH

57 Liniowa postać modelu:
α=0,05 tα=2,1009 r*=0,4438 wszystkie zmienne istotne współczynniki > r* do modelu wchodzą: X1, X2, X4 Liniowa postać modelu: Y=a0 + a1X1 + a2X2 + a4X4+ e KISIM, WIMiIP, AGH

58 Redukcja przestrzeni cech
KISIM, WIMiIP, AGH

59 Redukcja przestrzeni cech
Redukcji danych można dokonać na dwa podstawowe sposoby: poprzez ekstrakcję cech - wybieramy tylko niektóre, najważniejsze cechy redukcję przestrzeni cech - na przykład za pomocą PCA (analizy składowych głównych), czy grupowania: LDA (Liniową Analizę Dyskryminacyjną) czy KLT (transformacji Karhunen'a-Loeve'a macierzy kowariancji). KISIM, WIMiIP, AGH

60 Analiza składowych głównych
Celem analizy składowych głównych (Principal Components Analysis - PCA) jest redukcja liczby wymiarów PCA ma zastosowanie szczególnie tam, gdzie mamy do czynienia z dużą liczbą zmiennych wejściowych, od których uzależnić chcemy pewną liczbę zmiennych wyjściowych, a nie mamy zbyt wielu przypadków (obserwacji). Metoda PCA łagodzi problem wymiarowości "mapując" predyktory (których jest wiele) na nowe zmienne - składowe główne, których jest zwykle znacznie mniej. Oczywiście, przy takim przekształceniu zachodzi pewna strata informacji, jednak istota PCA polega na tym, że zachowuje najwięcej, jak to tylko możliwe, oryginalnej informacji. A priori nie wiadomo ilu składowych głównych trzeba użyć by nie stracić istotnej informacji. Kryterium są tu wartości własne, przyporządkowane każdej z C składowych głównych. Źródło: STATISTICA Electronic Manual - Statsoft KISIM, WIMiIP, AGH

61 Analiza składowych głównych
Musimy poprawnie znaleźć odpowiednią liczbę wartości własnych, dostatecznie dobrze odzwierciedlających oryginalne dane. Tą liczbę nowych zmiennych (składowych głównych) nazwać możemy liczbą wewnętrznych wymiarów. Zgodnie z ideą PCA oczekujemy, że kilka pierwszych składowych głównych da nam wgląd w podstawową zmienność danych i pozwoli lepiej zrozumieć zawartą w nich informację. Podobnie jak i w innych analizach statystycznych potrzebne jest w PCA pewne, wstępne przetworzenie danych (pre-processing), tak by ogólne założenia metody były jak najlepiej spełnione. W ten sposób konstruowana jest nowa przestrzeń obserwacji, w której najwięcej zmienności wyjaśniają początkowe czynniki. PCA jest często używana do zmniejszania rozmiaru zbioru danych statystycznych, poprzez odrzucenie ostatnich czynników. Można też poszukać merytorycznej interpretacji czynników, zależnej od rodzaju danych, co pozwala lepiej zrozumieć naturę danych, choć bywa trudne przy większej liczbie badanych zmiennych. KISIM, WIMiIP, AGH

62 Wstępne przetwarzanie danych
W analizach wielowymiarowych często mamy do czynienia z sytuacją, gdy zmienne mają bardzo różne zakresy zmienności (różne wariancje). Na wykresie rozrzutu przedstawione są przykładowe, dwuwymiarowe dane. Obie skale wykresu są takie same, w związku z czym, przed transformacją (czerwone punkty) wydaje się, że większość zmienności zawiera się w drugim wymiarze X2. Jednak po przeskalowaniu zmiennej X1 (niebieskie punkty) widać, że obie zmienne mają zmienność podobnego typu. Konieczne jest więc takie przeskalowanie zmiennych, by żadna nie miała sztucznie zawyżonego, czy zaniżonego wpływu na analizę, tylko z powodu skali. KISIM, WIMiIP, AGH

63 Wyśrodkowanie średniej i unormowanie wariancji
Najczęściej stosowanym sposobem skalowania jest skalowanie do jednostkowej wariancji. Każda ze zmiennych jest tak przekształcana, by po transformacji miała wariancje równą jeden. Daje to wszystkim zmiennym jednakowe szanse w byciu reprezentowaną w modelu PCA. Można też zastosować centrowanie średnich, gdzie środek nowego układu współrzędnych umieszcza się w punkcie wielowymiarowej średniej (patrz poniższy rysunek). Jest to wygodne przekształcenie pozwalające łatwiej operować zmiennymi w dalszych analizach. KISIM, WIMiIP, AGH

64 Przykład załóżmy, że nasze dane X są dwuwymiarowe. Dane te będziemy reprezentować za pomocą jednej składowej głównej. Składową tę oznaczmy przez PC1. Kierunek osi PC1 jest taki, że składowa ta przejmuje najwięcej (jak to tylko możliwe) zmienności danych. Każdy punkt oryginalnych danych xi = (xi1, xi2) może zostać zrzutowany na oś PC1. Wartość rzutu, czyli pozycja punktu na osi PC1 - ti jest wartością danej obserwacji w sensie składowej głównej. KISIM, WIMiIP, AGH

65 Przykład Jeśli uogólnimy przykład dla dwóch zmiennych na wiele zmiennych, to obliczenia staną się bardziej złożone, ale podstawowa zasada wyrażania dwóch lub więcej zmiennych w postaci pojedynczego czynnika pozostaje taka sama. KISIM, WIMiIP, AGH

66 Ile czynników wyodrębnić
Ile czynników chcemy wyodrębnić? Zauważmy, że kolejne wyodrębniane czynniki wyjaśniają coraz mniej zmienności. Decyzja o tym, kiedy przerwać wyodrębnianie czynników zależy zasadniczo od tego, czy pozostała tylko niewielka "losowa" zmienność. Jest to decyzja z natury arbitralna; rozwinięto jednak różne wskazówki Kryterium Kaisera. wartość własna > 1 od tego miejsca łagodny spadek - osypisko. Test osypiska. KISIM, WIMiIP, AGH

67 Analiza czynnikowa Główne zastosowania czynnikowych technik analitycznych to: (1) redukcja liczby zmiennych (PCA) (2) wykrywanie struktury w związkach między zmiennymi, to znaczy klasyfikacja zmiennych. (Konfirmacyjna analiza czynnikowa, Analiza korespondencji.) Czynniki główne a składowe główne; w analizie składowych głównych zakładamy, że całkowita zmienność wskaźnika powinna zostać użyta w analizie, w analizie czynników głównych używamy tylko tej zmienności wskaźnika, którą dzieli on z innymi wskaźnikami. W większości przypadków obie metody dają bardzo podobne wyniki. Jednak analiza składowych głównych jest często preferowana jako metoda redukcji danych, podczas gdy analiza czynników głównych jest chętniej stosowana, gdy celem jest wykrycie struktury KISIM, WIMiIP, AGH

68 STATISTICA – wybór predyktorów
Budujemy w nim ranking zmiennych i wybieramy jedynie te zmienne, które są w sposób istotny powiązane z modelowanym zjawiskiem. Miarą szacowania mocy predykcyjnej jest wskaźnik information value (IV) Wyznacznikiem mocy predykcyjnej poszczególnych wartości lub przedziałów wartości zmiennych prognozujących jest miara Weight of Evidence (WoE) KISIM, WIMiIP, AGH

69 Przykłady w STATISTICA
KISIM, WIMiIP, AGH

70 Macierz korelacji KISIM, WIMiIP, AGH

71 Dobór i eliminacja zmiennych
KISIM, WIMiIP, AGH

72 Ważność predyktorów KISIM, WIMiIP, AGH

73 Tabele przestawne Excel
Liczba godzin w pracy w tygodniu Czy stan cywilny, zarobki oraz płeć wpływa na rozkład czasu pracy? Kto pracuje dłużej? KISIM, WIMiIP, AGH

74 KISIM, WIMiIP, AGH

75 Liczba godzin w pracy w tygodniu
KISIM, WIMiIP, AGH

76 Zarobki vs. Rasa vs. Edukacja
Rasa wpływa na zarobki – proporcjonalnie więcej białych zarabia powyżej 50K Wykształcenie wpływa na zarobki Inne rasy muszą uczyć się dłużej, żeby zarabiać powyżej 50K KISIM, WIMiIP, AGH

77 Przykład 1a (ANOVA) Wiadomo, że związki chemiczne stosowane w leczeniu nowotworów mogą powodować obniżenie poziomu hemoglobiny we krwi (niedokrwistość). W przypadku pewnego związku chemicznego stosowanego w leczeniu nowotworów (Lek A) podejrzewano, że przy długotrwałym stosowaniu powoduje niedokrwistość (stężenie hemoglobiny we krwi poniżej 11g/dl) w większym stopniu niż inne leki tego typu. Do badania włączono grupę 24 osób z rozpoznaniem nowotworu. 10 z nich podawano wspomniany lek A. Pozostałym pacjentom podawano inne leki o podobnym działaniu. 7 pacjentów zażywało lek B, a 7 lek C. W momencie przystąpienie do badania u wszystkich pacjentów poziom hemoglobiny we krwi był prawidłowy. Po zakończonej obserwacji u pacjentów ponownie wykonano morfologię krwi. Wyniki badania poziomu hemoglobiny u badanych były następujące: KISIM, WIMiIP, AGH

78 Przykład 1b Lek A Lek B Lek C 10,2 14,3 10,4 8,7 14,1 12 12,5 17 13,6 13,8 13,2 13,5 7,6 11,6 14,7 8,2 10,9 15,3 9,8 9,3 14,9 14,2 Czy pacjenci przyjmujący lek A po zakończeniu terapii mieli niższy poziom hemoglobiny we krwi niż pacjenci leczeni innymi lekami? KISIM, WIMiIP, AGH

79 Przykład 1c Stąd wniosek, że poziom hemoglobiny u pacjentów stosujących różne leki różni się istotnie. Zakładamy normalność rozkładów oraz jednorodność wariancji w grupach.  KISIM, WIMiIP, AGH

80 Przykład 1d KISIM, WIMiIP, AGH

81 KISIM, WIMiIP, AGH

82 Tabele wielodzielcze KISIM, WIMiIP, AGH

83 KISIM, WIMiIP, AGH

84 KISIM, WIMiIP, AGH

85 KISIM, WIMiIP, AGH

86 KISIM, WIMiIP, AGH

87 Tabele raportujące KISIM, WIMiIP, AGH

88 KISIM, WIMiIP, AGH

89 Płace – wykres rozrzutu
KISIM, WIMiIP, AGH

90 Macierz wykresów rozrzutu
KISIM, WIMiIP, AGH

91 Wykresy interakcji (ANOVA)
Na wszystkich poziomach edukacji kobiety zarabiają mniej Najmniejsza różnica dla „średnie ogólne” KISIM, WIMiIP, AGH

92 Skategoryzowane wykresy ramka-wąsy, dwa czynniki:
Przekroje Skategoryzowane wykresy ramka-wąsy, dwa czynniki: Wykształcenie, Płeć KISIM, WIMiIP, AGH

93 Rozkłady dwuwymiarowe histogramy skategoryzowane
Tabela dwudzielcza histogram skategoryzowany KISIM, WIMiIP, AGH


Pobierz ppt "Przygotowanie i wstępna obróbka danych"

Podobne prezentacje


Reklamy Google