Przygotowanie i wstępna obróbka danych Eksploracja Danych Przygotowanie i wstępna obróbka danych postacie danych, wczytywanie danych, ocena jakości, filtrowanie oraz czyszczenie danych, konsolidacja danych, przekształcenia danych. Krzysztof Regulski, WIMiIP, KISiM, regulski@metal.agh.edu.pl
Czyszczenie danych Pierwszym krokiem po zebraniu danych powinna być wstępna analiza polegająca na oczyszczeniu zbioru danych z wartości odstających, spowodowanych np. błędami grubymi Błędy grube wynikają najczęściej z jakiegoś poważnego przeoczenia, pomyłki – np. złego odczytania skali miernika, z pomylenia miejsca zapisu przecinka podczas przetwarzania pomiarów, zmierzenie nie tego obiektu itp. KISIM, WIMiIP, AGH
Najczęściej stosowane: Jeżeli przygotowany zbiór danych będzie zawierał wartości odstające, wtedy analizy, które będą wykonywane w następnej kolejności mogą dać błędne wyniki. Najczęściej stosowane: test Grubbsa, test trzech sigma (normalny), Tukeya test Dixona, test Cochrana, test 3d, kryterium Chauveneta. KISIM, WIMiIP, AGH
Test Grubbsa W celu sprawdzenia, czy w zbiorze danych jest wartość odstająca ze względu na wartość średnią, w pierwszej kolejności musimy znaleźć kandydata na wartość odstającą, czyli wartość która jest najbardziej oddalona od ogólnej średniej. Następnie wartość bezwzględną różnicy pomiędzy wartością średnią a wartością kandydata należy podzielić przez odchylenie standardowe. Otrzymujemy w ten sposób wartość statystyki zwanej statystyką Grubbsa: Pozostaje nam otrzymaną wartość G porównać z wartością krytyczną, którą może my odczytać z odpowiednich tablic. Jeżeli G będzie zbyt wysokie, wtedy należy uznać kandydata za wartość odstającą. KISIM, WIMiIP, AGH
STATISTICA: Moduł Podstawowe statystyki i tabele Aby wykonać ten test, idziemy do okna Statystyki opisowe i wybierzmy kartę Odporne. Karta ta zawiera opcje umożliwiające włączenie do arkusza wynikowego średniej Winsora, średniej przyciętej oraz testu Grubbsa. Test Grubbsa na obserwacje odstające może być użyty w celu wskazania jednej obserwacji odstającej podczas jednego przebiegu. Test ten polega na wyliczeniu jak daleko potencjalna obserwacja odstająca znajduje się od pozostałych wartości w zbiorze danych. Statystyka testu Grubbsa (G) liczona jest jako stosunek największego bezwzględnego odchylenia średniej z próby do odchylenia standardowego próby KISIM, WIMiIP, AGH
KISIM, WIMiIP, AGH
Zamiana obserwacji odstających. Po tym jak wskazano obserwacje odstające, do badacza należy określenie czy obserwacje te przedstawiają szczególną własność danej zmiennej czy są wynikiem błędu albo innych anomalii, które nie powinny być modelowane. W programie STATISTICA znajdują się opcję czyszczenia danych, które mogą być wykorzystane w celu zamiany obserwacji odstających. Dostęp do tej opcji możliwy jest przez wybór polecenia Zamień odstające z menu Dane - Czyszczenie danych. KISIM, WIMiIP, AGH
Okno Zamiana wartości odstających i rzadkich zawiera różne testy umożliwiające identyfikację obserwacji odstających w zmiennych ciągłych i jakościowych. W przypadku zmiennych jakościowych, STATISTICA za obserwacje odstające uzna te przypadki, których kod lub wartość tekstowa występują rzadziej niż określona częstotliwość. W przypadku zmiennych ciągłych można wybrać jeden z wielu dostępnych testów. KISIM, WIMiIP, AGH
Test Grubbsa KISIM, WIMiIP, AGH
Zamiana obserwacji odstających. 2 1 KISIM, WIMiIP, AGH
KISIM, WIMiIP, AGH
Metoda graficzna KISIM, WIMiIP, AGH
Wykres ramka-wąsy Podejście graficzne. Popularnym sposobem wykrywania obserwacji odstających jest stworzenie wykresu ramkowego. Aby to zrobić, należy kliknąć przycisk Zmienne, który znajduje się w oknie Statystyki opisowe. Otrzymamy okno wyboru zmiennej. Ponieważ interesuje nas znalezienie jakiejkolwiek obserwacji odstającej w naszym zbiorze, klikamy przycisk Wszystkie oraz OK. Następnie, na karcie Podstawowe, klikamy Wykres ramka-wąsy. KISIM, WIMiIP, AGH
Obserwacje odstające Aby włączyć pokazywanie takich obserwacji, należy dwukrotnie kliknąć w tło wykresu. Na ekranie pojawi się okno Opcje wykresu; przechodzimy w nim na kartę Wykres właściwy: Ramka-wąsy. KISIM, WIMiIP, AGH
Przykład: Wykrywanie obserwacji odstających Podejście graficzne. Popularnym sposobem wykrywania obserwacji odstających jest stworzenie wykresu ramkowego. KISIM, WIMiIP, AGH
Wykres właściwy: Ramka-wąsy. Widać wyraźnie, że zmienna N_ZATR cechuje się większą zmiennością niż pozostałe zmienne. Na tym początkowym wykresie potencjalne obserwacje odstające i ekstremalne nie są wskazane. Aby włączyć tę opcję, należy dwukrotnie kliknąć w tło wykresu aby wyświetlić okno Wszystkie opcje, a następnie wybrać kartę Wykres właściwy: Ramka-wąsy. KISIM, WIMiIP, AGH
wybieramy dodatkowe opcje określające wykres, kontrolujące wyświetlanie obserwacji odstających i ekstremalnych oraz wykorzystanie rozkładu przyciętego zmiennej zależnej do policzenia średniej/mediany. W oknie Wykres ramka-wąsy; więcej opcji wybieramy Odstające i ekstremalne z rozwijanej listy Odstające. KISIM, WIMiIP, AGH
Usuwanie odstających wartości Dla każdej ze zmiennej liczbowej wykonuje się wykresy ramka-wąsy, by znaleźć wartości odstające. stosuje się następujące współczynniki: Ramka Wąs Odstające KISIM, WIMiIP, AGH
KISIM, WIMiIP, AGH
Reguła „3 sigma” KISIM, WIMiIP, AGH
Sposoby radzenia sobie z BD Wyłączanie obserwacji z brakami danych – analiza kompletnych obserwacji Gdy obliczamy macierz korelacji (kowariancji) lub wykonujemy inną analizę wikłającą wiele zmiennych, której elementem jest obliczanie istotności, siły związku lub odległości między parami zmiennych (np. analiza czynnikowa, analiza skupień, regresja, modelowanie strukturalne) wyłączanie obserwacji z brakami danych może następować w dwojaki sposób: • Usuwanie obserwacjami (casewise); jeśli w którejkolwiek ze zmiennych użytych w analizie pojawia się brak danej – cała obserwacja wyłączana jest z obliczeń. • Usuwanie parami (pairwise); statystyki obliczane są w oparciu o wszystkie informacje dostępne dla każdej pary zmiennych z osobna. W wyniku zastosowania tej metody każda korelacja czy odległość może być obliczona w oparciu o inną próbę. KISIM, WIMiIP, AGH
- dla pary A,B obserwacji 1,4 i 7; - dla pary B,C obserwacji 1,2 i 7; W przypadku obliczenia tabeli porównawczej średnich i odchyleń standardowych dla zmiennych A, B i C możemy przyjąć za podstawę obserwacje 1 i 7 (usuwanie obserwacjami) – co gwarantuje wykonanie analizy na tej samej próbie. w przypadku obliczania macierzy korelacji przy usuwaniu b.d. parami użyjemy: - dla pary A,B obserwacji 1,4 i 7; - dla pary B,C obserwacji 1,2 i 7; - dla pary A,C obserwacji 1,3 i 7. W przypadku usuwania obserwacjami wszystkie współczynniki obliczone zostaną w oparciu o obserwacje 1 i 7. X oznacza brak danej. O oznacza obecność danej. KISIM, WIMiIP, AGH
Zastępowanie braków danych – imputacja Imputacja polega na przypisaniu wartości obserwacjom w miejsce braków danych. Przede wszystkim używamy jej w przypadku występowania braków danych w poszczególnych pozycjach zbioru danych, rzadziej w przypadku braku części danych. W przypadku analizy pojedynczych zmiennych w próbie, w której występuje niewielka liczba braków danych, często możemy poprzestać na analizie kompletnych obserwacji (usuwanie obserwacjami) bez wprowadzania dużych zniekształceń. W przypadku analiz wielowymiarowych, gdy braki danych rozproszone są po różnych obserwacjach, usuwanie obserwacjami łatwo może doprowadzić do radykalnego zmniejszenia efektywnej liczebności próby i obciążenia wyników analizy. Czasem jedna zmienna, istotna merytorycznie (np. dochód), może zawierać szczególnie dużo braków danych i prowadzić do utraty informacji zawartych w innych, bardziej kompletnych zmiennych w sytuacji ich łącznej analizy. KISIM, WIMiIP, AGH
Metody imputacji Podstawianie średniej – średnia jest zachowana; odchylenie standardowe jest niedoszacowane; liczebność próby jest zawyżona. W przypadku zmiennych jakościowych, przy niewielkiej liczbie braków danych stosuje się podstawianie dominanty lub mediany. Średnia ogólna plus błąd losowy – Zachowane jest odchylenie standardowe. zniekształcenia (destrukcji) korelacji pomiędzy uzupełnioną zmienną a innymi zmiennymi. Średnia grupowa (plus błąd losowy) „Hot deck” sekwencyjny / hierarchiczny wielokrotni dawcy problem z granicami przy sortowaniu (np. przejście od mężczyzn do kobiet) słaba korelacja wewnątrz grup. Metoda regresyjna Imputacja wielokrotna KISIM, WIMiIP, AGH
KISIM, WIMiIP, AGH
Metoda EM (expectation-maximization) Metoda EM jest oparta na zaawansowanym algorytmie iteracyjnym, który składa się z naprzemiennie występujących dwóch kroków (po wykonaniu wstępnych operacji inicjujących proces szacowania): • E – expectation, w którym następuje imputacja braków danych w oparciu o regresję • M – maximization, w którym metodą największej wiarygodności szacowana jest średnia i macierz kowariancji na postawie uzupełnionych danych . Etapy te powtarzane są aż do osiągnięcia zbieżności. Przy szacowaniu momentów metodą największej wiarygodności przyjmuje się założenie o rozkładzie, któremu podlegają zmienne w populacji. O to założenie oparta jest funkcja wiarygodności, która jest maksymalizowana (a raczej jej logarytm). Ocena oparta o metodę największej wiarygodności jest hipotetyczną wartością parametru w populacji, która maksymalizuje wiarygodność (prawdopodobieństwo) obserwowanej próby, innymi słowy bardziej prawdopodobnie od innych generuje próbę, którą aktualnie obserwujemy. KISIM, WIMiIP, AGH
Ważenie próby Ważenie wykonujemy (o ile wymaga tego sytuacja) z trzech podstawowych powodów, a są to: • kompensacja skutków niejednakowego prawdopodobieństwa dostania się do próby; • kompensacja skutków nieuzyskania danych o części osób (elementów) wylosowanych do próby; • chęć lepszego dostosowania rozkładu próby do znanego rozkładu wybranych cech w populacji. KISIM, WIMiIP, AGH
Rodzaje problemów badawczych Obiekty różniące się poziomem szarości (stosowane metody przetwarzania obrazu: proste przekształcenia, binaryzacja) Obiekty oddzielone granicami (stosowane metody przetwarzania obrazu: filtry, detekcja granic ziarn) Obiekty różniące się teksturą (stosowane metody przetwarzania obrazu: transformata Fouriera) KISIM, WIMiIP, AGH
Binaryzacja Z górnym progiem Z dolnym progiem Z dwoma progami Binaryzacja wykorzystująca histogram rozkładu stopni szarości KISIM, WIMiIP, AGH
Binaryzacja z histerezą Wynikiem końcowym procesu jest zaliczenie do obrazu binarnego tych elementów, wykrytych przez główny zakres, które zawierają elementy wykryte również przez zakres pomocniczy. KISIM, WIMiIP, AGH
Ektrakcja Cech Liczba metod tworzenia nowych cech (ang. feature extraction) jest niezwykle duża, w zależności od pochodzenia danych, typów cech oryginalnych, celów analizy, czy też metody dalszej analizy. Cel analizy można rozbić ogólnie na uczenie z nauczycielem (przy danej cesze decyzyjnej) albo bez, przy czym metody tworzenia nowych cech bez nauczyciela można też stosować do danych z ustaloną decyzją. KISIM, WIMiIP, AGH
Spójność obszaru jest cechą topologiczną. Cechy topologiczne Spójność obszaru jest cechą topologiczną. Obszar zawierający trzy spójne obiekty C=3. KISIM, WIMiIP, AGH
Liczba otworów jest niezmienną cechą topologiczną. Cechy topologiczne Liczba otworów jest niezmienną cechą topologiczną. Obszary z dwoma otworami H=2 KISIM, WIMiIP, AGH
Liczba Eulera jest niezmienną cechą topologiczną. Liczba Eulera jest zależnością pomiędzy spójnością obiektu i jego liczbą otworów: E = C - H Liczba Eulera jest niezmienną cechą topologiczną. KISIM, WIMiIP, AGH
KISIM, WIMiIP, AGH
Detekcja brzegów nie prowadzi do rozwiązania Zliczanie obiektów Detekcja brzegów nie prowadzi do rozwiązania KISIM, WIMiIP, AGH
Ekstrakcja cech: zredukowany w wymiarach obraz (1) widmo obrazu (2) powiązany łańcuch cech z linii i kolumn (3, 4) wektor cech z zapisanych współrzędnych punktów konturowego modelu twarzy (5) cechy lokalne takie jak: położenie źrenic, najbliższych i najdalszych punktów oczu, kącików ust itp. (6) każdy wiersz lub każdą kolumnę obrazu jako samodzielny wektora cech KISIM, WIMiIP, AGH
Algorytmy dyskretyzacji danych ciągłych. Dyskretyzacja wartości atrybutów ciągłych polega na zastąpieniu każdej wartości atrybutu wartością dyskretną, odpowiadającą pewnemu przedziałowi ciągłych wartości oryginalnego atrybutu. Przedziały te są uporządkowane, co sprawia, że w wyniku dyskretyzacji otrzymujemy zamiast atrybutu ciągłego atrybut porządkowy o skończonej liczbie wartości. KISIM, WIMiIP, AGH
Dyskretyzacja naiwna. Polega ona na tym, że każdej nowej wartości rzeczywistej danego atrybutu przyporządkowujemy nową wartość naturalną. KISIM, WIMiIP, AGH
Dyskretyzacja według równej szerokości. KISIM, WIMiIP, AGH
Wybór zmiennych
Skąd wziąć dane do analizy? Punktem wyjścia wszystkich metod analitycznych jest tablica decyzyjna o ustalonych rozmiarach. Skąd wziąć taką tablicę w sytuacjach praktycznych? Budowa tablicy na podstawie surowych danych wejściowych przebiega w dwóch kierunkach - w zależności od tego, czy mamy nadmiar, czy niedobór cech (atrybutów) do analizy: selekcja cech (wybór najlepszych), tworzenie nowych cech (ekstrakcja cech). KISIM, WIMiIP, AGH
Czy dziś grać w golfa? KISIM, WIMiIP, AGH
Metody doboru zmiennych do modelu Zmienne wybiera się na podstawie wiedzy dziedzinowej. Wymagania nt. własności zmiennych niezależnych: Są silnie skorelowanych ze zmienną, którą objaśniają. Są nieskorelowane lub co najwyżej słabo skorelowane ze sobą. Charakteryzują się dużą zmiennością. Jak wykorzystać współczynniki korelacji? KISIM, WIMiIP, AGH
Macierz korelacji jest macierzą kwadratową wartości wszystkich elementów macierzy należą do przedziału < -1, 1 > (ponieważ są współczynnikami korelacji) wszystkie elementy leżące na głównej przekątnej tej macierzy równe są 1 (określa to stopień skorelowania zmiennej Xi z nią samą) jest to macierz symetryczna wyznacznik tej macierzy należy do przedziału < 0, 1 > KISIM, WIMiIP, AGH
Wybór zmiennych do modelu W modelu powinny znaleźć się zmienne silnie skorelowane ze zmienną zależną i jak najsłabiej skorelowane między sobą. Aby wybrać optymalny model zawierający najsilniej skorelowane ze zmienną zależną zmienne niezależne stosuje się metody regresji krokowej: regresja krokowa postępująca – polega na kolejnym dołączaniu do modelu zmiennych objaśniających na podstawie statystyki F regresja krokowa wsteczna – budujemy model ze wszystkich dostępnych zmiennych, a następnie usuwamy z modelu najmniej istotne (statystyka F) Nie ma automatycznych, doskonałych metod doboru zmiennych. Obliczenia wspierane pakietem obliczeniowym należy korygować w oparciu o znajomość problemu. KISIM, WIMiIP, AGH
STATISTICA - Dobór i eliminacja zmiennych Procedura ta sprawdza wpływ zmiennych na zmienną zależną automatycznie eliminuje puste zmienne (niezawierające żadnych wartości) i stałe (przyjmujące tę samą wartość dla wszystkich przypadków). procedura bada wpływ pojedynczych zmiennych na wielkość wyjściową. Sprawdza ona, na ile dla różnych wartości potencjalnego predykatora zmienna zależna przyjmuje różne wartości. KISIM, WIMiIP, AGH
Chi-kwadrat. Test niezależności W celu zbadania zależności pomiędzy dwiema zmiennymi nominalnymi (kategorialnymi, jakościowymi). Dla zmiennych ilościowych test F Bazuje on na porównywaniu ze sobą wartości obserwowanych z wartościami oczekiwanymi (czyli takimi, które zakłada test, gdyby nie było żadnego związku pomiędzy zmiennymi) . Jeżeli różnica pomiędzy wartościami obserwowanymi a oczekiwanymi jest duża (po sprawdzeniu w tablicach statystycznych, np. p < 0,05) to można powiedzieć, że zachodzi relacja pomiędzy jedną zmienną a drugą. 2 policzymy ze wzoru gdzie: nij – liczba elementów próby, – liczebności teoretyczne, k – liczba kolumn tablicy niezależności, r – liczba wierszy tablicy niezależności. KISIM, WIMiIP, AGH
Chi-kwadrat. Test niezależności Wartości chi-kwadrat zależą od: natężenia (siły) związku badanych cech – im większe różnice między liczebnością empiryczną a teoretyczną, tym większa wartość chi-kwadrat i tym samym większa zależność między cechami, od wielkości próby, przy czym chi-kwadrat liczymy tylko dla dużych prób, od stopnia szczegółowości danych (przy czym w każdym polu tabeli powinno być co najmniej 5, a więc czasami trzeba łączyć wiersze lub kolumny). KISIM, WIMiIP, AGH
Dobór i eliminacja zmiennych KISIM, WIMiIP, AGH
Korelacje nieparametryczne Trzy najpowszechniejsze nieparamtryczne współczynniki korelacji: R Spearmana tau Kendalla współczynnik gamma Warto zauważyć, że statystyka chi-kwadrat obliczana dla dwudzielczych tabeli liczności również jest dokładną miarą współzależności dwóch (stabelaryzowanych) zmiennych, a w odróżnieniu od miar korelacji opisanych niżej, może być stosowana dla zmiennych jakościowych (tzn. wyrażonych na skali nominalnej). KISIM, WIMiIP, AGH
KISIM, WIMiIP, AGH
korelacje korzystne dla modelu współczynniki > r* α=0,05 tα=2,1009 r*=0,4438 korelacje korzystne dla modelu współczynniki > r* korelacje niekorzystne dla modelu KISIM, WIMiIP, AGH
Metoda analizy grafów (metoda Bartosiewicz) Metoda zmierza do tego, by spośród wszystkich zmiennych objaśniających wyodrębnić grupy zmiennych skorelowanych między sobą oraz znaleźć zmienne, z których żadna nie jest skorelowana z pozostałymi zmiennymi objaśniającymi. Następnie spośród tych grup zmiennych wybiera się zmienne mocniej skorelowane ze zmienną objaśnianą i wprowadza się je do relacji modelu. Do modelu wchodzą również wszystkie zmienne nieskorelowane między sobą, ale skorelowane ze zmienną objaśnianą. KISIM, WIMiIP, AGH
Metoda analizy grafów (metoda Bartosiewicz) Obliczenie współczynników korelacji zmiennych objaśniających ze zmienną objaśnianą rj oraz zmiennych objaśniających pomiędzy sobą rij. Testowanie istotności współczynników korelacji Odrzucenie zmiennych X nieskorelowanych ze zmienna objaśnianą i konstrukcja macierzy R' z zerami w miejscu nieistotnych współczynników rij. Budowa grafu powiązań między zmiennymi objaśniającymi i wybór zmiennych do modelu, tworząc w ten sposób k grafów – grup zmiennych, odpowiadających przyszłym k zmiennym objaśniającym modelu. Do zmiennych objaśniających zalicza się: zmienne, które w odwzorowaniu tworzą grafy zerowe (izolowane), zmienne o maksymalnej liczbie łuków wybrane z każdego grafu spójnego, jeżeli w każdym grafie spójnym jest więcej niż jedna zmienna o takiej samej maksymalnej liczbie łuków, to wybiera się spośród tych zmiennych tę, która jest najbardziej skorelowana ze zmienną objaśnianą. KISIM, WIMiIP, AGH
X1, r*=0,4 r(X2)=3 X2, do modelu wchodzą: X5, KISIM, WIMiIP, AGH
Liniowa postać modelu: α=0,05 tα=2,1009 r*=0,4438 wszystkie zmienne istotne współczynniki > r* do modelu wchodzą: X1, X2, X4 Liniowa postać modelu: Y=a0 + a1X1 + a2X2 + a4X4+ e KISIM, WIMiIP, AGH
Redukcja przestrzeni cech KISIM, WIMiIP, AGH
Redukcja przestrzeni cech Redukcji danych można dokonać na dwa podstawowe sposoby: poprzez ekstrakcję cech - wybieramy tylko niektóre, najważniejsze cechy redukcję przestrzeni cech - na przykład za pomocą PCA (analizy składowych głównych), czy grupowania: LDA (Liniową Analizę Dyskryminacyjną) czy KLT (transformacji Karhunen'a-Loeve'a macierzy kowariancji). KISIM, WIMiIP, AGH
Analiza składowych głównych Celem analizy składowych głównych (Principal Components Analysis - PCA) jest redukcja liczby wymiarów PCA ma zastosowanie szczególnie tam, gdzie mamy do czynienia z dużą liczbą zmiennych wejściowych, od których uzależnić chcemy pewną liczbę zmiennych wyjściowych, a nie mamy zbyt wielu przypadków (obserwacji). Metoda PCA łagodzi problem wymiarowości "mapując" predyktory (których jest wiele) na nowe zmienne - składowe główne, których jest zwykle znacznie mniej. Oczywiście, przy takim przekształceniu zachodzi pewna strata informacji, jednak istota PCA polega na tym, że zachowuje najwięcej, jak to tylko możliwe, oryginalnej informacji. A priori nie wiadomo ilu składowych głównych trzeba użyć by nie stracić istotnej informacji. Kryterium są tu wartości własne, przyporządkowane każdej z C składowych głównych. Źródło: STATISTICA Electronic Manual - Statsoft KISIM, WIMiIP, AGH
Analiza składowych głównych Musimy poprawnie znaleźć odpowiednią liczbę wartości własnych, dostatecznie dobrze odzwierciedlających oryginalne dane. Tą liczbę nowych zmiennych (składowych głównych) nazwać możemy liczbą wewnętrznych wymiarów. Zgodnie z ideą PCA oczekujemy, że kilka pierwszych składowych głównych da nam wgląd w podstawową zmienność danych i pozwoli lepiej zrozumieć zawartą w nich informację. Podobnie jak i w innych analizach statystycznych potrzebne jest w PCA pewne, wstępne przetworzenie danych (pre-processing), tak by ogólne założenia metody były jak najlepiej spełnione. W ten sposób konstruowana jest nowa przestrzeń obserwacji, w której najwięcej zmienności wyjaśniają początkowe czynniki. PCA jest często używana do zmniejszania rozmiaru zbioru danych statystycznych, poprzez odrzucenie ostatnich czynników. Można też poszukać merytorycznej interpretacji czynników, zależnej od rodzaju danych, co pozwala lepiej zrozumieć naturę danych, choć bywa trudne przy większej liczbie badanych zmiennych. KISIM, WIMiIP, AGH
Wstępne przetwarzanie danych W analizach wielowymiarowych często mamy do czynienia z sytuacją, gdy zmienne mają bardzo różne zakresy zmienności (różne wariancje). Na wykresie rozrzutu przedstawione są przykładowe, dwuwymiarowe dane. Obie skale wykresu są takie same, w związku z czym, przed transformacją (czerwone punkty) wydaje się, że większość zmienności zawiera się w drugim wymiarze X2. Jednak po przeskalowaniu zmiennej X1 (niebieskie punkty) widać, że obie zmienne mają zmienność podobnego typu. Konieczne jest więc takie przeskalowanie zmiennych, by żadna nie miała sztucznie zawyżonego, czy zaniżonego wpływu na analizę, tylko z powodu skali. KISIM, WIMiIP, AGH
Wyśrodkowanie średniej i unormowanie wariancji Najczęściej stosowanym sposobem skalowania jest skalowanie do jednostkowej wariancji. Każda ze zmiennych jest tak przekształcana, by po transformacji miała wariancje równą jeden. Daje to wszystkim zmiennym jednakowe szanse w byciu reprezentowaną w modelu PCA. Można też zastosować centrowanie średnich, gdzie środek nowego układu współrzędnych umieszcza się w punkcie wielowymiarowej średniej (patrz poniższy rysunek). Jest to wygodne przekształcenie pozwalające łatwiej operować zmiennymi w dalszych analizach. KISIM, WIMiIP, AGH
Przykład załóżmy, że nasze dane X są dwuwymiarowe. Dane te będziemy reprezentować za pomocą jednej składowej głównej. Składową tę oznaczmy przez PC1. Kierunek osi PC1 jest taki, że składowa ta przejmuje najwięcej (jak to tylko możliwe) zmienności danych. Każdy punkt oryginalnych danych xi = (xi1, xi2) może zostać zrzutowany na oś PC1. Wartość rzutu, czyli pozycja punktu na osi PC1 - ti jest wartością danej obserwacji w sensie składowej głównej. KISIM, WIMiIP, AGH
Przykład Jeśli uogólnimy przykład dla dwóch zmiennych na wiele zmiennych, to obliczenia staną się bardziej złożone, ale podstawowa zasada wyrażania dwóch lub więcej zmiennych w postaci pojedynczego czynnika pozostaje taka sama. KISIM, WIMiIP, AGH
Ile czynników wyodrębnić Ile czynników chcemy wyodrębnić? Zauważmy, że kolejne wyodrębniane czynniki wyjaśniają coraz mniej zmienności. Decyzja o tym, kiedy przerwać wyodrębnianie czynników zależy zasadniczo od tego, czy pozostała tylko niewielka "losowa" zmienność. Jest to decyzja z natury arbitralna; rozwinięto jednak różne wskazówki Kryterium Kaisera. wartość własna > 1 od tego miejsca łagodny spadek - osypisko. Test osypiska. KISIM, WIMiIP, AGH
Analiza czynnikowa Główne zastosowania czynnikowych technik analitycznych to: (1) redukcja liczby zmiennych (PCA) (2) wykrywanie struktury w związkach między zmiennymi, to znaczy klasyfikacja zmiennych. (Konfirmacyjna analiza czynnikowa, Analiza korespondencji.) Czynniki główne a składowe główne; w analizie składowych głównych zakładamy, że całkowita zmienność wskaźnika powinna zostać użyta w analizie, w analizie czynników głównych używamy tylko tej zmienności wskaźnika, którą dzieli on z innymi wskaźnikami. W większości przypadków obie metody dają bardzo podobne wyniki. Jednak analiza składowych głównych jest często preferowana jako metoda redukcji danych, podczas gdy analiza czynników głównych jest chętniej stosowana, gdy celem jest wykrycie struktury KISIM, WIMiIP, AGH
STATISTICA – wybór predyktorów Budujemy w nim ranking zmiennych i wybieramy jedynie te zmienne, które są w sposób istotny powiązane z modelowanym zjawiskiem. Miarą szacowania mocy predykcyjnej jest wskaźnik information value (IV) Wyznacznikiem mocy predykcyjnej poszczególnych wartości lub przedziałów wartości zmiennych prognozujących jest miara Weight of Evidence (WoE) KISIM, WIMiIP, AGH
Przykłady w STATISTICA KISIM, WIMiIP, AGH
Macierz korelacji KISIM, WIMiIP, AGH
Dobór i eliminacja zmiennych KISIM, WIMiIP, AGH
Ważność predyktorów KISIM, WIMiIP, AGH
Tabele przestawne Excel Liczba godzin w pracy w tygodniu Czy stan cywilny, zarobki oraz płeć wpływa na rozkład czasu pracy? Kto pracuje dłużej? KISIM, WIMiIP, AGH
KISIM, WIMiIP, AGH
Liczba godzin w pracy w tygodniu KISIM, WIMiIP, AGH
Zarobki vs. Rasa vs. Edukacja Rasa wpływa na zarobki – proporcjonalnie więcej białych zarabia powyżej 50K Wykształcenie wpływa na zarobki Inne rasy muszą uczyć się dłużej, żeby zarabiać powyżej 50K KISIM, WIMiIP, AGH
Przykład 1a (ANOVA) Wiadomo, że związki chemiczne stosowane w leczeniu nowotworów mogą powodować obniżenie poziomu hemoglobiny we krwi (niedokrwistość). W przypadku pewnego związku chemicznego stosowanego w leczeniu nowotworów (Lek A) podejrzewano, że przy długotrwałym stosowaniu powoduje niedokrwistość (stężenie hemoglobiny we krwi poniżej 11g/dl) w większym stopniu niż inne leki tego typu. Do badania włączono grupę 24 osób z rozpoznaniem nowotworu. 10 z nich podawano wspomniany lek A. Pozostałym pacjentom podawano inne leki o podobnym działaniu. 7 pacjentów zażywało lek B, a 7 lek C. W momencie przystąpienie do badania u wszystkich pacjentów poziom hemoglobiny we krwi był prawidłowy. Po zakończonej obserwacji u pacjentów ponownie wykonano morfologię krwi. Wyniki badania poziomu hemoglobiny u badanych były następujące: KISIM, WIMiIP, AGH
Przykład 1b Lek A Lek B Lek C 10,2 14,3 10,4 8,7 14,1 12 12,5 17 13,6 13,8 13,2 13,5 7,6 11,6 14,7 8,2 10,9 15,3 9,8 9,3 14,9 14,2 Czy pacjenci przyjmujący lek A po zakończeniu terapii mieli niższy poziom hemoglobiny we krwi niż pacjenci leczeni innymi lekami? KISIM, WIMiIP, AGH
Przykład 1c Stąd wniosek, że poziom hemoglobiny u pacjentów stosujących różne leki różni się istotnie. Zakładamy normalność rozkładów oraz jednorodność wariancji w grupach. KISIM, WIMiIP, AGH
Przykład 1d KISIM, WIMiIP, AGH
KISIM, WIMiIP, AGH
Tabele wielodzielcze KISIM, WIMiIP, AGH
KISIM, WIMiIP, AGH
KISIM, WIMiIP, AGH
KISIM, WIMiIP, AGH
KISIM, WIMiIP, AGH
Tabele raportujące KISIM, WIMiIP, AGH
KISIM, WIMiIP, AGH
Płace – wykres rozrzutu KISIM, WIMiIP, AGH
Macierz wykresów rozrzutu KISIM, WIMiIP, AGH
Wykresy interakcji (ANOVA) Na wszystkich poziomach edukacji kobiety zarabiają mniej Najmniejsza różnica dla „średnie ogólne” KISIM, WIMiIP, AGH
Skategoryzowane wykresy ramka-wąsy, dwa czynniki: Przekroje Skategoryzowane wykresy ramka-wąsy, dwa czynniki: Wykształcenie, Płeć KISIM, WIMiIP, AGH
Rozkłady dwuwymiarowe histogramy skategoryzowane Tabela dwudzielcza histogram skategoryzowany KISIM, WIMiIP, AGH