Metody Eksploracji Danych (2)

Slides:



Advertisements
Podobne prezentacje
Proces doboru próby. Badana populacja – (zbiorowość generalna, populacja generalna) ogół rzeczywistych jednostek, o których chcemy uzyskać informacje.
Advertisements

Ekonometria stosowana WYKŁAD 4 Piotr Ciżkowicz Katedra Międzynarodowych Studiów Porównawczych.
© Kazimierz Duzinkiewicz, dr hab. inż. Katedra Inżynierii Systemów Sterowania 1 Metody optymalizacji - Energetyka 2015/2016 Metody programowania liniowego.
STATYSTYKA MATEMATYCZNA wykład 1 - wprowadzenie Dr Aldona Migała-Warchoł.
Ekonometria stosowana Autokorelacja Piotr Ciżkowicz Katedra Międzynarodowych Studiów Porównawczych.
Niepewności pomiarowe. Pomiary fizyczne. Pomiar fizyczny polega na porównywaniu wielkości mierzonej z przyjętym wzorcem, czyli jednostką. Rodzaje pomiarów.
Ćwiczenia Zarządzanie Ryzykiem Renata Karkowska, ćwiczenia „Zarządzanie ryzykiem” 1.
Ekonometria Wykład 1 Uwarunkowania modelowania ekonometrycznego. Uogólniona metoda najmniejszych kwadratów dr hab. Mieczysław Kowerski.
Cel analizy statystycznej. „Człowiek –najlepsza inwestycja”
Ryzyko a stopa zwrotu. Standardowe narzędzia inwestowania Analiza fundamentalna – ocena kondycji i perspektyw rozwoju podmiotu emitującego papiery wartościowe.
Klasyczny model regresji liniowej (KMRL) Zakład Statystyki Stosowanej Instytut Statystyki i Demografii Kolegium Analiz Ekonomicznych Szkoła Główna Handlowa.
Analiza wariancji (ANOVA) Zakład Statystyki Stosowanej Instytut Statystyki i Demografii Kolegium Analiz Ekonomicznych Szkoła Główna Handlowa w Warszawie.
Zmienne losowe Zmienne losowe oznacza się dużymi literami alfabetu łacińskiego, na przykład X, Y, Z. Natomiast wartości jakie one przyjmują odpowiednio.
Analiza tendencji centralnej „Człowiek – najlepsza inwestycja”
Funkcja liniowa Przygotował: Kajetan Leszczyński Niepubliczne Gimnazjum Przy Młodzieżowym Ośrodku Wychowawczym Księży Orionistów W Warszawie Ul. Barska.
© Prof. Antoni Kozioł, Wydział Chemiczny Politechniki Wrocławskiej MATEMATYCZNE MODELOWANIE PROCESÓW BIOTECHNOLOGICZNYCH Prezentacja – 4 Matematyczne opracowywanie.
STATYSTYKA – kurs podstawowy wykład 10 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.
ANALIZA DANYCH DO OPRACOWANIA MAP TEMATYCZNYCH HALINA KLIMCZAK INSTYTUT GEODEZJI I GEOINFORMATYKI UNIWERSYTET PRZYRODNICZY WE WROCŁAWIU.
W KRAINIE TRAPEZÓW. W "Szkole Myślenia" stawiamy na umiejętność rozumowania, zadawania pytań badawczych, rozwiązywania problemów oraz wykorzystania wiedzy.
Metody Analizy Danych Doświadczalnych Wykład 9 ”Estymacja parametryczna”
Matematyka przed egzaminem czyli samouczek dla gimnazjalisty Przygotowała Beata Czerniak FUNKCJE.
Menu Jednomiany Wyrażenia algebraiczne -definicja Mnożenie i dzielenie sum algebraicznych przez jednomian Mnożenie sum algebraicznych Wzory skróconego.
Optymalna wielkość produkcji przedsiębiorstwa działającego w doskonałej konkurencji (analiza krótkookresowa) Przypomnijmy założenia modelu doskonałej.
Metody sztucznej inteligencji - Technologie rozmyte i neuronowe 2015/2016 Perceptrony proste nieliniowe i wielowarstwowe © Kazimierz Duzinkiewicz, dr hab.
Zmienna losowa dwuwymiarowa Dwuwymiarowy rozkład empiryczny Zakład Statystyki Stosowanej Instytut Statystyki i Demografii Kolegium Analiz Ekonomicznych.
1 Definiowanie i planowanie zadań budżetowych typu B.
Regresja. Termin regresja oznacza badanie wpływu jednej lub kilku zmiennych tzw. objaśniających na zmienną, której kształtowanie się najbardziej nas interesuje,
Budżetowanie kapitałowe cz. III. NIEPEWNOŚĆ senesu lago NIEPEWNOŚĆ NIEMIERZALNA senesu strice RYZYKO (niepewność mierzalna)
O PARADOKSIE BRAESSA Zbigniew Świtalski Paweł Skałecki Wydział Matematyki, Informatyki i Ekonometrii Uniwersytet Zielonogórski Zakopane 2016.
Test analizy wariancji dla wielu średnich – klasyfikacja pojedyncza
Minimalizacja automatu
Wyznaczanie miejsc zerowych funkcji
Katedra Międzynarodowych Studiów Porównawczych
DEFINICJA I ZASTOSOWANIE W JĘZYKU HASKELL
System wspomagania decyzji DSS do wyznaczania matematycznego modelu zmiennej nieobserwowalnej dr inż. Tomasz Janiczek.
terminologia, skale pomiarowe, przykłady
MATEMATYCZNE MODELOWANIE PROCESÓW BIOTECHNOLOGICZNYCH
Przywiązanie partnerów a ich kompetencje społeczne
Liczby pierwsze.
Rachunek prawdopodobieństwa i statystyka
Modele SEM założenia formalne
Podstawy automatyki I Wykład /2016
Pojedyńczy element, mała grupa
Elementy fizyki kwantowej i budowy materii
PROGRAM WYKŁADU Analiza obwodów liniowych pobudzanych okresowymi przebiegami niesinusoidalnymi. Szereg Fouriera w postaci trygonometrycznej i wykładniczej.
Wnioskowanie statystyczne. Estymacja i estymatory.
Selekcja zmiennych w trybie zaawansowanym -
Ekonometria stosowana
Eksploracja Danych ____________________ Repetytorium ze statystyki
Zmienne losowe wielowymiarowe
Tensor naprężeń Cauchyego
Własności statystyczne regresji liniowej
Repetytorium z probabilistyki i statystyki cz.2
Weryfikacja hipotez statystycznych
Porównywanie średnich prób o rozkładach normalnych (testy t-studenta)
Statystyka i Demografia
FORMUŁOWANIE HIPOTEZ STATYSTYCZNYCH
Wnioskowanie statystyczne. Estymacja i estymatory.
Doskonalenie rachunku pamięciowego u uczniów
REGRESJA WIELORAKA.
Wyrównanie sieci swobodnych
Analiza zależności pomiędzy zmiennymi losowymi (danymi empirycznymi)
ROZKŁADY STATYSTYCZNE ZMIENNYCH MIERZALNYCH
Statystyka i Demografia wykład 9
Prawa ruchu ośrodków ciągłych c. d.
Program na dziś Wprowadzenie Logika prezentacji i artykułu
WYBRANE ZAGADNIENIA PROBABILISTYKI
Wiesław Niebudek 7 grudnia 2017r.
Własności asymptotyczne metody najmniejszych kwadratów
Zapis prezentacji:

Metody Eksploracji Danych (2) Repetytorium z probabilistyki i statystyki podstawowe pojęcia szeregi rozdzielcze, czasowe wykresy statystyczne statystyka opisowa zmienna losowa i jej parametry dystrybuanta i funkcja gęstości korelacja wnioskowanie statystyczne

Podstawowe pojęcia Populacja jest to zbiór wszystkich elementów reprezentujących analizowany problem (zjawisko). Może być zbiorem skończonym, przeliczalnym lub nieprzeliczalnym. Próba statystyczna – to podzbiór właściwy elementów badanej populacji, będący podstawą wnioskowania statystycznego o populacji. KISIM, WIMiIP, AGH

• Wnioskowanie statystyczne. Podstawowe cele badań statystycznych; statystycznej analizy zbiorów danych • Badanie struktury populacji, reprezentowanej przez zbiór (danych) wartości wybranych cech (zmiennych) i jej: wizualizacja w postaci rozkładów tych zmiennych bądź charakterystyka przy zastosowaniu parametrów statystyki opisowej. • Odkrywanie i określanie (charakteru, siły, kierunku) zależności występujących w zbiorach danych reprezentujących różne cechy badanych obiektów, zjawisk, procesów. • Wnioskowanie statystyczne. KISIM, WIMiIP, AGH

Badania statystyczne – próby losowe Losowy dobór próby polega na tym, że o fakcie znalezienia się poszczególnych elementów populacji w próbie decyduje przypadek. Jest to taki sposób wyboru przy którym spełnione są następujące dwa warunki; każda jednostka populacji ma dodatnie, znane prawdopodobieństwo znalezienia się w próbie istnieje możliwość ustalenia prawdopodobieństwa znalezienia się w próbie dla każdego zespołu elementów populacji KISIM, WIMiIP, AGH

Wybór próby reprezentatywnej Od próby wymaga się reprezentatywności, czyli aby z przyjętą dokładnością opisywała strukturę badanej populacji. O reprezentatywności decydują dwa czynniki: • Liczebność (n) • Sposób doboru grupy Wybór celowy, o przynależności do grupy decyduje badacz, stopień reprezentatywności zależy wyłącznie od jakości selekcji Wybór losowy – każdy element populacji ma jednakową szansę znalezienia się w próbie z takim samym prawdopodobieństwem, stopień reprezentatywności rośnie wraz ze wzrostem liczebności grupy. Stosowane są dwie techniki losowania: Losowanie niezależne (zwrotne) Losowanie zależne (bezzwrotne) KISIM, WIMiIP, AGH

Rodzaje szeregów statystycznych Badana cecha przyjmuje niewielką liczbę jednostek (mała grupa). Porządkowana rosnąco lub malejąco Charakteryzują stan badanej zbiorowości w określonym momencie (np. w danym miesiącu, roku). Przedstawiają więc populację w układzie statycznym i służą do analizy jej struktury. dane ilościowe Szeregi przestrzenne przedstawiają rozmieszczenie wielkości statystycznych według podziału administracyjnego (gmina, powiat, województwo, krajów, regionów geograficznych). dane jakościowe proste skumulowane proste skumulowane KISIM, WIMiIP, AGH

Szereg czasowy Szereg czasowy jest to skończony zbiór par {t, xt}, gdzie t przybiera wartości ze zbioru liczb naturalnych i każdemu t przyporządkowana jest liczba xt. Szereg czasowy to ciąg zmiennych losowych lub inaczej proces stochastyczny z dyskretnym czasem. Szereg czasowy jest realizacją procesu stochastycznego. Przykłady ekonomicznych szeregów czasowych: dochód narodowy w Polsce w latach 1990-2005, indeks cen dóbr i usług konsumpcyjnych w okresie od stycznia 1995 do grudnia 2004, dzienny kurs dolara w NBP w okresie od 1 stycznia 2000 do 31 grudnia 2004, ceny akcji na giełdzie w notowaniach ciągłych obserwowane co minutę w okresie od 1 stycznia 2005 do 30 czerwca 2005. KISIM, WIMiIP, AGH

Szereg czasowy, dynamiczny, chronologiczny Internetoholicy pojawili się w Polsce już w 1993r. Tabela zawiera dane o liczbie zgłaszających się do najstarszej w Polsce przychodni Szereg dynamiczny otrzymuje się w wyniku grupowania typologicznego (wyodrębniającego różne jakościowo cechy) i wariancyjnego (porządkującego zbiorowość przez łączenie w klasy jednostek mających odpowiednie wartości cech) gdy podstawą grupowania jest zmiana badanego zjawiska w czasie KISIM, WIMiIP, AGH

Szereg rozdzielczy prosty Przy budowie szeregu rozdzielczego wyróżnia się trzy etapy: Ustalenie liczby klas oraz wielkości przedziałów klasowych Przyporządkowanie danych przyjętym przedziałom klasowym Zliczanie liczby jednostek w każdej klasie Liczba klas k zależy przede wszystkim od liczby obserwacji n. Stosowane bywają następujące wzory pomocne do szacowania liczby przedziałów budowanego szeregu rozdzielczego: k=1+3,322 log n KISIM, WIMiIP, AGH

Szereg rozdzielczy skumulowany Dystrybuanta empiryczna KISIM, WIMiIP, AGH

Histogram Histogram to jeden z graficznych sposobów przedstawiania rozkładu cechy. Składa się z szeregu prostokątów umieszczonych na osi współrzędnych. Prostokąty te są wyznaczone przez przedziały klasowe wartości cechy; szerokość przedziału; krok natomiast ich wysokość jest określona przez liczebności częstości elementów należących do określonego przedziału klasowego. KISIM, WIMiIP, AGH

Wykresy Wielobok liczebności Histogram KISIM, WIMiIP, AGH

Statystyka Opisowa Wyróżnia się następujące grupy parametrów statystycznych: • Miary położenia / skupienia/ koncentracji średnia, moda, mediana, max, min, kwantyle) • Miary zmienności pozycyjne: rozstęp, odchylenie ćwiartkowe, odchylenie przeciętne, wsp. zmienności klasyczne: wariancja, odchylenie standardowe, klasyczny wsp. zmienności • Miary asymetrii i Graficzna interpretacja statystyk KISIM, WIMiIP, AGH

Moda (dominanta) W rozkładach empirycznych określa się dominantę (modę), najczęściej występującą wartość cechy gdzie x0 – dolna granicą przedziału w którym występuje moda, hm – rozpiętość przedziału klasowego, nm, nm-1, nm+1– liczebności odpowiednio przedziału z modą, poprzedniego i następnego KISIM, WIMiIP, AGH

Miary zmienności (rozproszenia) danych – interpretacja graficzna odchylenia standardowego Odchylenie standardowe w zbiorowości (1) jest mniejsze niż w zbiorowości (2). Diagram (1) jest smuklejszy i wyższy. s1 < s2 KISIM, WIMiIP, AGH

Praktyczne wykorzystanie miar zmienności • Przedział TYPOWYCH wartości cechy (miary klasyczne) • Przedział taki ma tą własność, że około 70% jednostek badanej zbiorowości charakteryzuje się wartością cechy należącą do tego przedziału. KISIM, WIMiIP, AGH

Reguła „3 sigma” KISIM, WIMiIP, AGH

Porządkowanie zbioru danych identyfikacja omyłek (błędów grubych) KISIM, WIMiIP, AGH

Charakterystyczne cechy rozkładów: punkty skupienia, asymetria, rozrzut KISIM, WIMiIP, AGH

Podstawowe twierdzenia o prawdopodobieństwie P(A’) = 1- P(A), gdy A’ = Ω-A P(AB) = P(A)+P(B)-P(AB) P(A/B) = P(A  B)/P(B) P(A  B) = P(A)*P(B)  A i B są niezależne Tw. o prawdopodobieństwie całkowitym Zał.: A1  A2  ….  An= Ω , Ai  Aj =∅  i,j =1,2,…,n Teza: P(B) = P(B/A1)*P(A1)+…..+ P(B/An)*P(An) Tw. Bayesa Z: A1  A2  ….  An= Ω , Teza: P(Ai/B) = P(B/Ai)*P(Ai)/P(B) KISIM, WIMiIP, AGH

Określam zmienną losową X w następujący sposób: X(ωd)=1 X(ωw)=0 Definiowanie zmiennej losowej jest to przypisanie wartości liczbowych zdarzeniom elementarnym. Z partii wyrobów zawierającej wyroby dobre i wyroby wadliwe losuję jeden wyrób, wtedy Ω = {ωd, ωw} gdzie ωd – oznacza wylosowanie wyrobu dobrego ωw – oznacza wylosowanie wyrobu wadliwego Określam zmienną losową X w następujący sposób: X(ωd)=1 X(ωw)=0 KISIM, WIMiIP, AGH

Rozkład prawdopodobieństwa zmiennej losowej Jeżeli w przedstawionym przykładzie, dotyczącym kontroli jakości wyrobów, 90% wyrobów było dobrych, natomiast 10% stanowiły wybraki, to możemy mówić o prawdopodobieństwie zdarzeń („dwupunktowym”rozkładzie prawdopodobieństwa) P({ω : X(ω)=0}) = 0,1 P({ω : X(ω)=1}) = 0,9 Natomiast poniższa tabelka ilustruje KISIM, WIMiIP, AGH

Rozpatrujemy zmienną losową na przestrzeni dyskretnej: Zmienna losowa Rozpatrujemy zmienną losową na przestrzeni dyskretnej: Przykład: Przyjmijmy, ze rzucamy kostką do gry, wtedy: KISIM, WIMiIP, AGH

Dystrybuanta zmiennej losowej Dystrybuantą zmiennej losowej X nazywamy funkcję: Przykład: KISIM, WIMiIP, AGH

Dystrybucja zmiennej losowej – gęstość rozkładu (1) Gęstość opisujemy wzorem: Rozkłady mające gęstość nazywane są rozkładami ciągłymi. Często mówi się o gęstości zmiennej losowej w sensie gęstości rozkładu zmiennej losowej. Funkcja gęstości prawdopodobieństwa - funkcja rzeczywista, która pozwala wyrazić prawdopodobieństwo wystąpienia dowolnego zdarzenia A przy pomocy wartości całki Lebesgue'a z tej funkcji po zbiorze A. KISIM, WIMiIP, AGH

Dystrybucja zmiennej losowej – gęstość rozkładu (2) KISIM, WIMiIP, AGH

Parametry zmiennej losowej Wartość oczekiwana (nadzieja matematyczna / wartość przeciętna) zmiennej losowej – średnia. Określamy ja następująco: Wariancja zmiennej losowej - rozrzut wyników wokół wartości średniej. Odchylenie standardowe: KISIM, WIMiIP, AGH

Rozkład normalny (Gaussa) W empirycznych seriach czasowych najczęściej rozpatrywany jest tzw. rozkład normalny (Gaussa) gdzie μ oznacza średnią a σ odchylenie standardowe (równoważne wariancji σ2). KISIM, WIMiIP, AGH

Prawo Wielkich Liczb (PWL) Średnią w prostej próbie losowej X1, X2 , .. , Xn o liczności n nazywamy statystykę Prawo Wielkich Liczb: Niech X będzie zmienną losową o wartości oczekiwanej µX i skończonej wariancji σ2X<∞ i niech X1, X2 , .. ,Xn będzie prostą próbą losową z rozkładu zmiennej X. Wówczas dla dowolnie małej dodatniej liczby ε prawdopodobieństwo jest bliskie 1 dla dużych liczności próby n. KISIM, WIMiIP, AGH

Centralne twierdzenie graniczne Badana jest zmienna losowa, która jest sumą niezależnych zmiennych losowych o jednakowym rozkładzie i takiej samej wartości oczekiwanej μ i skończonej wariancji σ2. Jeśli ilość składników rośnie, to zmienna ta zbiega do rozkładu normalnego. Czyli: Sn = X1 + X2 + . . . + Xn E[Xi] = μi (jest skończona) Var[Xi] = σi2 (jest skończona) to: ma rozkład normalny unormowany N(0, 1). KISIM, WIMiIP, AGH

Estymacja i estymatory Rozpatrywane dotychczas statystyki: średnia i częstość należą do najczęściej stosowanych w praktyce. W przypadku gdy statystyki używane są do szacowania (przybliżania) nieznanych parametrów rozkładu zmiennej losowej noszą specjalną nazwę: • Statystykę T(X1,X2 ,….., Xn), służącą do oszacowania nieznanego parametru populacji nazywamy estymatorem. • Dla konkretnych wartości próby X1=x1, X2=x2 ,.., Xn=xn liczbę T(X1,X2 ,….., Xn) nazywamy wartością estymatora Cechy estymatorów: • Zgodny • Nieobciążony • Najefektywniejszy KISIM, WIMiIP, AGH

Estymata i estymator Należy pamiętać, że prawdziwe wartości wymienionych parametrów pozostają zazwyczaj nieznane (podobnie jak sama funkcja gęstości rozkładu). Wielkości wyznaczane na podstawie próby są tylko ich oszacowaniami (estymatami). Dla odróżnienia parametru od estymatora, te ostatnie oznaczamy daszkiem lub zupełnie innym symbolem, np.: KISIM, WIMiIP, AGH

Estymacja przedziałowa Jeśli znamy odchylenie standardowe populacji σ, to nieznana wartość średnia m dla populacji generalnej znajduje się, z prawdopodobieństwem równym 1-α, w przedziale ufności, danym następującym wzorem: prawdopodobieństwo 1-α nazywamy poziomem ufności, natomiast α ― poziomem istotności. Poziom ufności określa szansę, z jaką nieznany parametr populacji generalnej znajdzie się w wyznaczonym przedziale ufności. Poziom istotności odpowiada marginesowi błędu, tj. prawdopodobieństwu, że nieznany parametr populacji będzie miał wartość leżącą poza wyznaczonym przedziałem ufności. KISIM, WIMiIP, AGH

Model deterministyczny W analizie często mamy do czynienia ze zjawiskami będącymi funkcjami zdeterminowanymi. Ich wartość może być opisana za pomocą ścisłych zależności matematycznych pomiędzy zmiennymi, wyniki eksperymentów są powtarzalne, np.: ruch satelity po orbicie, zmiana temperatury wody przy podgrzewaniu, KISIM, WIMiIP, AGH

Model probabilistyczny W wielu wypadkach występują jednak zjawiska niezdeterminowane, odpowiadające losowym zjawiskom fizycznym, których nie można opisać ścisłymi zależnościami. Zależność stochastyczna – występuje wtedy, gdy wraz ze zmianą wartości jednej zmiennej zmienia się rozkład prawdopodobieństwa drugiej zmiennej. Szczególnym przypadkiem zależności stochastycznej jest zależność korelacyjna (statystyczna). Polega ona na tym, że określonym wartościom jednej zmiennej odpowiadają ściśle określone średnie wartości drugiej zmiennej. Możemy zatem ustalić, jak zmieni się - średnio biorąc – wartość zmiennej zależnej Y w zależności od wartości zmiennej niezależnej X. KISIM, WIMiIP, AGH

Model probabilistyczny Jeśli mamy do czynienia z czynnikiem losowym, który może obejmować również nie znane nam zmienne wpływające na wartość zmiennej zależnej. Dane = Model + Błąd Model probabilistyczny jest zawsze uproszczeniem. Jeśli zmienna zależna ma charakter ilościowy, model nazywamy modelem regresyjnym. KISIM, WIMiIP, AGH

Wprowadzenie do badania zależności pomiędzy danymi statystycznymi Zwykle badane jednostki statystyczne charakteryzuje się za pomocą wielu zmiennych (cech) i wtedy ważnym jest ustalenie: – czy analizowane grupy danych, reprezentujące określone zmienne, można uznać za niezależne – jeśli hipoteza o niezależności zostaje odrzucona, należy przyjąć, że pomiędzy analizowanymi zmiennymi występuje zależność i szukamy odpowiedzi na pytanie: jaka jest jej: • siła • postać • kierunek Zależność między zmiennymi może być dwojakiego rodzaju: • funkcyjna • stochastyczna (probabilistyczna). KISIM, WIMiIP, AGH

KISIM, WIMiIP, AGH

KISIM, WIMiIP, AGH

Wykrywanie korelacji Obserwacja szeregów statystycznych zawierających informacje o cechach pozwala wykrywać zależności korelacyjne. Jeśli naszym celem jest analiza zachowania pewnej wielkości losowej Y, zbieramy również informacje towarzyszące, które mogą mieć znaczenie w analizie interesującej nas wielkości. Badana wartość, choć losowa, w istotny sposób zależy od innych zmiennych i zrozumienie charakteru tej zależności może być pożyteczne w wielu zadaniach np. przewidywania przyszłych wartości interesującej nas zmiennej. KISIM, WIMiIP, AGH

KISIM, WIMiIP, AGH

Miary siły i kierunku zależności Kowariancja Wzór na obliczanie estymatora kowariancji na podstawie danych empirycznych Dodatnia wartość kowariancji mówi nam, że przy wzroście X wartości Y również rosną KISIM, WIMiIP, AGH

Cechy kowariancji Jeśli zmienne X i Y są niezależne to cov (X,Y) =0 Znak kowariancji wskazuje kierunek zmian Wadą kowariancji jest to, że jej wartość zależy od jednostek pomiaru cech Można udowodnić, że -sx sy  cov (X,Y)  sx sy po podzieleniu kowariancji przez iloczyn odchyleń standardowych zmiennych X i Y otrzymuje się bezwymiarową miarę intensywności powiązania pomiędzy zmiennymi X i Y , jest to: współczynnik korelacji liniowej Pearsona – oznaczany przez literę , a jego estymator literę r KISIM, WIMiIP, AGH

Współczynnik korelacji gdzie xi oraz yi oznaczają odpowiednio wartości zmiennych x i y, x oraz y oznaczają średnie wartości tych zmiennych, sx, sy – odchylenia standardowe tych cech. Współczynnik korelacji (wsp. korelacji liniowej Pearsona) – jest miernikiem siły związku prostoliniowego między dwiema cechami mierzalnymi. Jest wyznaczony przez standaryzację kowariancji. KISIM, WIMiIP, AGH

Współczynnik korelacji liniowej (2) Statystyką, która opisuje siłę liniowego związku pomiędzy dwiema zmiennymi jest współczynnik korelacji z próby (r). Przyjmuje on wartości z przedziału domkniętego <-1; 1>. Wartość -1 oznacza występowanie doskonałej korelacji ujemnej (to znaczy sytuację, w której punkty leżą dokładnie na prostej, skierowanej w dół), a wartość 1 oznacza doskonałą korelację dodatnią (punkty leżą dokładnie na prostej, skierowanej w górę). Wartość 0 oznacza brak korelacji liniowej Wielkość współczynnika podlega wpływom wartości skrajnych – to jego wada KISIM, WIMiIP, AGH

Współczynnik korelacji (3) r – współczynnik korelacji r=0 zmienne nie są skorelowane 0,0 ≤ r < 0,1 korelacja nikła 0,1 ≤ r < 0,3 korelacja słaba 0,3 ≤ r < 0,5 korelacja przeciętna 0,5 ≤ r < 0,7 korelacja wysoka 0,7 ≤ r < 0,9 korelacja bardzo wysoka 0,9 ≤ r < 1 korelacja prawie pełna KISIM, WIMiIP, AGH

Współczynnik korelacji (4) Powiązanie między współczynnikiem korelacji a układem punktów Wykresy, które reprezentują graficznie związek pomiędzy zmiennymi, nazywane są wykresami rozrzutu. Wzrokowa ocena umożliwia często określenie siły i rodzaju zależności. Im bliżej położone są punkty na wykresie tym większej korelacji możemy się spodziewać. Najważniejsza jest statystyczna istotność korelacji. Konieczna jest weryfikacja istotności wyliczonego z próby współczynnika. Wartość współczynnika bliska 0 oznacza jedynie brak zależności liniowej. KISIM, WIMiIP, AGH

Badanie istotności współczynnika korelacji liniowej Współczynnik korelacji r (z próby) stanowi ocenę współczynnika korelacji ρ w zbiorowości generalnej. W związku z tym pojawia się potrzeba testowania jego istotności statystycznej. Formułujemy hipotezę zerową H0: ρ = 0, wobec alternatywnej: H1: ρ ≠ 0, a następnie obliczamy wartość statystyki testowej: porównujemy jej wartość z odpowiednią wartością krytyczną t ,n-2 i podejmujemy odpowiednią decyzję co do prawdziwości H0. KISIM, WIMiIP, AGH

Zależność od wielu zmiennych. Korelacje cząstkowe Na pewną zmienną oddziałuje więcej niż jedna zmienna, można określić macierz korelacji. Jeśli interesuje nas związek korelacyjny jedynie między dwoma zmiennymi przy wyłączeniu wpływu pozostałych, to powinniśmy wyliczyć współczynniki korelacji cząstkowej. Załóżmy, że mamy trzy zmienne X1, X2 oraz X3. Współczynniki korelacji cząstkowej oznaczamy następująco: r12.3, r13.2, r23.1 KISIM, WIMiIP, AGH

Związek korelacyjny pomiędzy zmiennymi X1 i X2, z wyłączeniem działania zmiennej X3 KISIM, WIMiIP, AGH

Postaci zależności Po obliczeniu wartości współczynnika korelacji zawsze zalecane jest utworzenie wykresu rozrzutu. Chodzi o to, aby wizualnie stwierdzić, czy badany związek rzeczywiście najlepiej opisuje funkcja liniowa Może się bowiem okazać, że wyliczona wartość współczynnika korelacji jest zbliżona do zera, a mimo to pomiędzy korelowanymi zmiennymi występuje współzależność, tyle że nieliniowa KISIM, WIMiIP, AGH

Wnioskowanie statystyczne Weryfikacja hipotez statystycznych Każde badanie naukowe rozpoczyna się od sformułowania problemu oraz najbardziej prawdopodobnego rozwiązania czyli hipotezy badawczej. Hipoteza powinna być tak sformułowana, by można ją ocenić przyjąć lub odrzucić. Hipotezy badawcze mogą dotyczyć: wartości analizowanych zmiennych: np. wartości średniej, wartości ekstremalnych (mim, max), jednorodności - wariancji... różnicy pomiędzy wartościami określonej cechy w różnych grupach badawczych ( różnych populacjach): np. różnica w zarobkach pomiędzy kobietami i mężczyznami, albo różnice w liczbie białych krwinek u osób zdrowych i osób z zapaleniem wyrostka robaczkowego itp.. zależności pomiędzy badanymi zmiennymi np obecność na wykładach i wyniki sprawdzianów wiedzy rodzaju badanych zależności np zależność logarytmiczna, wykładnicza, liniowa... oceny charakteru rozkładu zmiennej losowej. Liczba pijanych kierowców na polskich drogach ma rozkład normalny. KISIM, WIMiIP, AGH

Testy statystyczne Test statystyczny jest regułą postępowania, która każdej możliwej próbie przyporządkowuje decyzję przyjęcia lub odrzucenia hipotezy. Test statystyczny jest regułą rozstrzygającą jakie wyniki próby pozwalają uznać sprawdzaną hipotezę za prawdziwą a jakie za fałszywą Każda hipoteza statystyczna jest podzbiorem zbioru hipotez dopuszczalnych, hipoteza zerowa jest tą wyróżnioną hipotezą, która podlega weryfikacji, pozostałe hipotezy ze zbioru hipotez dopuszczalnych stanowią zbiór hipotez alternatywnych. Do weryfikacji hipotezy zerowej stosuje się testy statystyczne bazujące na określonych funkcjach testowych, KISIM, WIMiIP, AGH

Podstawowe etapy procesu weryfikacji hipotez statystycznych Sformułowanie hipotezy zerowej: H0 i hipotezy alternatywnej: H1 Podjęcie decyzji co do poziomu istotności  (dopuszczalnej wielkości błędu II rodzaju) oraz liczebności próby (n) Określenie obszaru krytycznego i obszaru przyjęcia sprawdzanej hipotezy H0 (wyznaczenie wartości krytycznych np u, t,r 2,r itp, dla zakładanego poziomu istotności  i wybranej funkcji testowej Wybór testu weryfikującego H0 (funkcji testowej w zależności od rodzaju hipotezy i liczności próby statystycznej) i wyliczenie jej wartości. Podjęcie decyzji weryfikacyjnej o przyjęciu hipotezy zerowej lub odrzuceniu jej na rzecz hipotezy alternatywnej KISIM, WIMiIP, AGH

Etapy wnioskowania statystycznego obliczenia własne postawienie hipotezy zerowej wybór testu i sprawdzenie spełnienia założeń obliczenie wartości funkcji testowej ustalenie (odczytanie z tablic) wartości krytycznych dla danego poziomu istotności podjęcie decyzji o przyjęciu lub odrzuceniu hipotezy H0 interpretacja otrzymanych wyników STATISTICA postawienie hipotezy zerowej wybór testu i sprawdzenie spełnienia założeń wprowadzenie danych podjęcie decyzji o przyjęciu lub odrzuceniu hipotezy H0 interpretacja otrzymanych wyników KISIM, WIMiIP, AGH

1. Sformułowanie hipotez H0 i H1 Parametryczne testy istotności Test dla wartości średniej w populacji generalnej Hipoteza sprawdzana (zerowa) dotyczy pewnego parametru H0: m=m0 przy jednej z hipotez alternatywnych H1: m≠m0 lub H1: m>m0 lub H1: m<m0 Hipoteza H0 : o równości średnich z n - elementowej próby i w populacji będzie zweryfikowana na podstawie wyników próby losowej. Za sprawdzian hipotezy H0 przyjmuje się określoną statystykę, zwaną także funkcją testową. Dla wartości oczekiwanej będzie to średnia arytmetyczną uzyskanych wyników z próby losowej. KISIM, WIMiIP, AGH

2. Przyjęcie odpowiedniego poziomu istotności  oraz liczebności próby Przy podejmowaniu decyzji weryfikującej hipotezy możemy popełnić dwa rodzaje błędów KISIM, WIMiIP, AGH

Rodzaje błędów popełnianych przy weryfikacji hipotez statystycznych Błąd I rodzaju polega na odrzuceniu hipotezy zerowej, mimo że jest prawdziwa. Przyjmowany w procesie weryfikacji hipotezy poziom istotności jest równy prawdopodobieństwu popełnienia błędu I rodzaju, zwykle =0.05 lub 0.01 Błąd II rodzaju polega za przyjęciu za prawdziwą hipotezy H0 gdy ona w rzeczywistości jest fałszywa. Przykład H0- oskarżony jest niewinny H1 - oskarżony jest winien Błąd I rodzaju : sąd skazał niewinnego: H0 prawdziwa, ale ją odrzucono Błąd II rodzaju: sąd uwolnił winnego: H1 prawdziwa, a przyjęto H0, Tu błąd I rodzaju jest znacznie bardziej dotkliwy, dlatego należy zminimalizować prawdopodobieństwo jego popełnienia (czyli dostarczyć „niezbitych” dowodów) KISIM, WIMiIP, AGH

Związek pomiędzy błędami I i II rodzaju: zmniejszanie wartości  pociąga wzrost wartości  H0: =m0 H1:  >m1 Przy przyjętym poziomie istotności , obszar krytyczny obejmuje wartości średnie A, gdy P (x A)=  Dla określenia obszaru  przyjmiemy następujący zestaw hipotez H0: =m0 H1:  = m1 >m0   KISIM, WIMiIP, AGH

Moc testu Z przedstawionego rysunku widać, że nie jest możliwe jednoczesne minimalizowanie prawdopodobieństwa popełnienia obu błędów. Z wartością  związana jest moc testu, która jest określana jako prawdopodobieństwo odrzucenia hipotezy zerowej, gdy jest ona fałszywa, czyli wynosi 1- . Moc testu zależy od poziomu istotności , a także od postaci hipotezy alternatywnej i liczebności próby W statystyce praktycznie postępuje się podobnie jak w sądzie przyjmując zasadę domniemania prawdziwości hipotezy zerowej, co oznacza, że chcemy aby błąd I rodzaju nie często miał miejsce. Określając poziom istotności określamy granicę błędu I rodzaju, pamiętając że przyjmując niższą wartość  uzyskujemy wyższą wiarygodność hipotezy alternatywnej (jej przyjęcie jest jakby mocniej uzasadnione), ale będzie trudniej odrzucić hipotezę zerową. KISIM, WIMiIP, AGH

3. Określenie obszaru krytycznego i obszaru przyjęcia sprawdzanej hipotezy H0 Jeśli prawdziwa jest hipoteza zerowa, to wartość statystyki U nie powinna przekraczać pewnej wartości krytycznej u P(U  u1-/2 ) =  dwustronny obszar krytyczny P(U  u1- ) =  prawostronny obszar krytyczny P(U ≤ -u ) =  lewostronny obszar krytyczny KISIM, WIMiIP, AGH

H0: m=m0 H1: m<m0 P(U ≤ u ) =  lewostronny obszar krytyczny  u  KISIM, WIMiIP, AGH

H0: m=m0 H1: m>m0 P(U  u ) =  1-  u 1-  prawostronny obszar krytyczny KISIM, WIMiIP, AGH

H0: m=m0 H1: m≠m0 P (U  u 1-/2 ) =  dwustronny obszar krytyczny 1-  /2 /2 u 1- /2 KISIM, WIMiIP, AGH

4. Wybór testu weryfikującego H0 i wyliczenie statystyki testowej Rozważamy rozkład średnich z n-elementowej próby, jest to rozkład N(m0, σ/ ), o ile hipoteza H0 jest prawdziwa Stąd statystyka U , określona wzorem ma rozkład N(0,1), Jeśli prawdziwa jest hipoteza zerowa , to wartość statystyki U nie powinna przekraczać pewnej wartości krytycznej u  oznacza obszar zbiór nietypowych wartości statystyki testowej pod warunkiem prawdziwości hipotezy zerowej KISIM, WIMiIP, AGH

Funkcje testowe dla dużej próby i dla małej, gdy nieznana jest wartość wariancji w populacji Duża próba Mała próba KISIM, WIMiIP, AGH

Podstawa do podjęcia decyzji weryfikacyjnej Jeżeli obliczona wartość funkcji testowej znajdzie się w obszarze krytycznym (np. f >A) , hipotezę H0 należy odrzucić i przyjąć hipotezę H1 W programach komputerowych decyzję podejmuje się na następującej podstawie jeśli p<   H0 odrzucamy, przyjmujemy H jeśli p    nie ma podstaw do odrzucenia H0  A KISIM, WIMiIP, AGH

Przykład realizowany z pomocą pakietu STATISTICA Dane z badań przeprowadzonych w 1996 roku dotyczące zarobków Polaków. Ankiety wysłano do 5000 pracowników wylosowanych przez GUS. Ankiety zwróciło 1255 osób. Arkusz zawiera następujące informacje o badanych osobach Płeć Wykształcenie Wiek Staż pracy Płaca brutto Stawiam pod wątpliwość twierdzenie, że płeć nie ma wpływu na wysokość zarobków w Polsce, jeśli by tak było to nie powinno być różnic pomiędzy średnimi wartościami zarobków kobiet i mężczyzn. Hipotezą zerową jest zdanie: Zarobki mężczyzn i kobiet nie różnią się H0 : m1=m2 przy hipotezie alternatywnej H1 : m1 m2 , KISIM, WIMiIP, AGH

KISIM, WIMiIP, AGH

Regresja liniowa KISIM, WIMiIP, AGH

Wybrane zagadnienia analizy regresji prostej Analiza regresji stanowi w stosunku do analizy korelacji dalszy krok w zakresie ilościowego opisu powiązań zachodzących między zmiennymi. Pojęcie funkcji w zastosowaniu do badań empirycznych nie może być zazwyczaj stosowane bez pewnych zastrzeżeń. Z definicji funkcji wynika, że jednej wartości zmiennej niezależnej (objaśniającej, predyktora) może być przyporządkowana dokładnie jedna wartość zmiennej zależnej (objaśnianej). KISIM, WIMiIP, AGH

Wybrane zagadnienia analizy regresji prostej Badacz w praktyce ma zazwyczaj do czynienia z sytuacją, w której przy kilku powtórzeniach doświadczenia, zachowując za każdym razem te same wartości zmiennej niezależnej, otrzymuje inne wartości mierzonej zmiennej zależnej. Wartości te zwykle leżą blisko siebie, ale nie są na ogół identyczne dla celów użytkowych należało pojęcie funkcji uczynić bardziej elastycznym, a terminy zmienna niezależna i zmienna zależna dostosować odpowiednio do nowych potrzeb. Do tego celu w statystyce matematycznej wprowadzono pojęcie regresji oznaczające obliczenia wykorzystywane do ilościowego opisu zależności jednej zmiennej od drugiej KISIM, WIMiIP, AGH

Regresja liniowa Założenia: błędy pomiarów są niezależne i mają ten sam rozkład, przy czym Eεi=0 oraz Varεi=σ2<∞, i=1, 2, ..., n. nieznana funkcja regresji ma postać f(x)=ax+b, (występuje tylko jeden predykator), gdzie a, b są liczbami rzeczywistymi W wyniku eksperymentu obserwujemy zatem zmienne losowe Yi = axi + b + εi, i=1, ..., n inaczej: Y = β0+ β1x + ε, gdzie β 0 oznacza wyraz wolny, β1 współczynnik kierunkowy ε błąd KISIM, WIMiIP, AGH

Równanie regresji i współczynnik determinacji W sytuacji jeśli wartość współczynnika determinacji R2 (wielkość ta oznacza kwadrat współczynnika korelacji) jest duża, to oznacza to, że błędy dla tego modelu są stosunkowo małe i w związku z tym model jest dobrze dopasowany do rzeczywistych danych. Zasadniczy cel analizy regresji polega na ocenie nieznanych parametrów modelu regresji. Ocena ta jest dokonywana za pomocą metody najmniejszych kwadratów (MNK). Metoda ta sprowadza się do minimalizacji sum kwadratów odchyleń wartości teoretycznych od wartości rzeczywistych (czyli tzw. reszt modelu). Dopasowany model regresji prostej, który daje punktową ocenę średniej wartości y dla określonej wartości x przyjmuje postać: y = b0+ b x gdzie y oznacza teoretyczną wartość zmiennej zależnej, a bo i b1 odpowiednio oceny wyrazu wolnego i współczynnika kierunkowego, uzyskane na podstawie wyników z próby. KISIM, WIMiIP, AGH

Współczynnik determinacji r2 – współczynnik determinacji, przyjmujący wartości z przedziału [0,1], jest miarą stopnia w jakim model wyjaśnia kształtowanie się zmiennej Y. Im jego wartość jest bliższa 1, tym lepsze dopasowanie modelu do danych empirycznych KISIM, WIMiIP, AGH

KISIM, WIMiIP, AGH

Współczynniki korelacji i determinacji Współczynniki, które otrzymujemy jeśli wcześniej dokonamy standaryzacji wszystkich zmiennych na średnią równą 0 i odchylenie standardowe równe 1. Np., Wielkość tych współczynników BETA pozwala na porównanie relatywnego wkładu każdej ze zmiennych niezależnych do predykcji zmiennej zależnej. Współczynniki regresji KISIM, WIMiIP, AGH

KISIM, WIMiIP, AGH

MNK Niech xi, ..., xn będą ustalonymi (nielosowymi) wielkościami i niech Y1, ..., Yn będą odpowiadającymi im sygnałami wyjściowymi, obarczonymi losowymi błędami εi o wartości oczekiwanej Eεi=0. Problem polega na oszacowaniu f na podstawie obserwacji par (x1, Y1), ..., (xn, Yn). Jako kryterium dopasowania funkcji f o danych eksperymentalnych można przyjąć wielkość Funkcję, która w danej klasie minimalizuje wartość J(f) nazywamy estymatorem najmniejszych kwadratów nieznanej funkcji regresji f. KISIM, WIMiIP, AGH

KISIM, WIMiIP, AGH

MNK (2) Wynik kolejnego pomiaru można przedstawić jako sumę (nieznanej) wielkości mierzonej oraz błędu pomiarowego εj, Od wielkości εi oczekujemy, aby suma kwadratów była jak najmniejsza: KISIM, WIMiIP, AGH

MNK (3) ay – parametr regresji (estymator współczynnika regresji) by – wyraz wolny KISIM, WIMiIP, AGH

Metoda Najmniejszych Kwadratów pozwala na uzyskanie estymatorów: MNK (4) Metoda Najmniejszych Kwadratów pozwala na uzyskanie estymatorów: Nieobciążonych – wartość przeciętna równa wartości szacowanego parametru Efektywnych – z najmniejszą wariancją Zgodnych – zwiększanie liczebności próby umożliwia uzyskiwanie estymatora o wartości coraz bliższej szacowanego parametru KISIM, WIMiIP, AGH

5.) składniki losowe (reszty) są nieskorelowane Założenia MNK 1.) model jest liniowy 2.) liczba obserwacji n musi być większa lub równa liczbie oszacowanych parametrów 3.) 4.) 5.) składniki losowe (reszty) są nieskorelowane 6.) reszty mają rozkład normalny KISIM, WIMiIP, AGH

Ocena estymacji parametrów modelu (1) Rozbieżność między wartościami zmiennej zależnej, a wartościami uzyskanymi z modelu można ocenić na podstawie odchylenia standardowego reszt. Wielkość ta nazywana jest błędem standardowym estymacji (1) (1) KISIM, WIMiIP, AGH

Ocena estymacji parametrów modelu (2) Średni błąd szacunku parametrów – oszacowanie średniej rozbieżności pomiędzy parametrami modelu a jego możliwymi ocenami (2) (2) (3) Ilorazy t (t=bi/Sbi) - wskazuje ile razy ocena parametru jest większa od jego błędu szacunku Najpopularniejszą miarą dopasowania jest współczynnik determinacji R2 (3) KISIM, WIMiIP, AGH

Dekompozycja wariancji zmiennej objaśnianej Odchylenie zmiennej objaśnianej yi od wartości średniej yśr możemy przedstawić jako sumę odchylenia wartości teoretycznej od wartości średniej i reszty ei Sumę kwadratów odchyleń przedstawiamy, na podstawie założeń przyjętych w metodzie najmniejszych kwadratów: CSK – całkowita suma kwadratów WSK – wyjaśniona suma kwadratów RSK – resztowa suma kwadratów współczynnik determinacji współczynnik zbieżności KISIM, WIMiIP, AGH

R2 – współczynnik determinacji, przyjmujący wartości z przedziału [0,1], jest miarą stopnia w jakim model wyjaśnia kształtowanie się zmiennej Y. KISIM, WIMiIP, AGH

Na weryfikację modelu składają się testy sprawdzające: Weryfikacja modelu Na weryfikację modelu składają się testy sprawdzające: Istotność parametrów modelu (test t) Istotność całego modelu (test F Fishera-Snedecora) - istotność współczynnika kierunkowego - istotność współczynnika determinacji - istotność liniowego związku między zmiennymi (analiza wariancji) Założenia MNK Zweryfikowany model może posłużyć do predykcji zmiennej zależnej KISIM, WIMiIP, AGH

Regresja wieloraka KISIM, WIMiIP, AGH

Liniowy model regresji wielorakiej: Regresja wieloraka Jeśli w modelu regresji mamy do czynienia z więcej niż jedną zmienną objaśniającą (niezależną), mówimy o regresji wielorakiej (wielokrotnej). Liniowy model regresji wielorakiej: y = β0+ β1x1 + β2x2 + .. + βkxk + ε gdzie βj – parametry modelu (współczynniki regresji) ε – składnik losowy KISIM, WIMiIP, AGH

5.) składniki losowe (reszty) są nieskorelowane Założenia MNK 1.) model jest liniowy 2.) liczba obserwacji n musi być większa lub równa liczbie oszacowanych parametrów 3.) 4.) 5.) składniki losowe (reszty) są nieskorelowane 6.) reszty mają rozkład normalny KISIM, WIMiIP, AGH

KISIM, WIMiIP, AGH

KISIM, WIMiIP, AGH

KISIM, WIMiIP, AGH

brak istotności wyrazu wolnego zmienna zależna brak istotności wyrazu wolnego wzrost istotny statystycznie wiek – brak istotności KISIM, WIMiIP, AGH

oszacowana funkcja regresji: Wyniki regresji model istotny statystycznie oszacowana funkcja regresji: WAGA = 6,55 + 2,05*WIEK+ 0,72*WZROST±4,66 (10,94) (0,94) (0,26) R2=0,78 interpretacja: jeśli wartość zmiennej WIEK wrośnie o 1 to wartość zmiennej WAGA wzrośnie o 2,5kg BETA: standaryzowany wskaźnik siły powiązania brak istotności wpływu wieku dodatnie oddziaływanie wieku i wzrostu na wagę R2=0,78, czyli 78% ogólnej zmienności WAGI wyjaśnione przez model KISIM, WIMiIP, AGH

Predykcja na podstawie modelu ile będzie ważyć dziecko w wieku 13 lat, mające 65 cali wzrostu? Brak dowodu na istotność zmiennej nie jest dostatecznym powodem do usunięcia jej z modelu. Należy sprawdzić współliniowość Tolerancja (1-R2) mówi ile zmienności danej zmiennej nie zostało wyjaśnione przez pozostałe zmienne. Im mniejsza, tym bardziej nadmiarowy jest jej wkład w równanie regresji. tolerancja = 0 (lub bliska) oznacza brak możliwości obliczenia modelu. KISIM, WIMiIP, AGH

Analiza reszt 1.) Testowanie normalności reszt KISIM, WIMiIP, AGH

2.) Testowanie autokorelacji reszt 3.) homoscedastyczność – wariancja stała dla wszystkich obserwacji KISIM, WIMiIP, AGH

Wykresy reszt Wykres jednoosiowy Brak losowości Brak stacjonarności KISIM, WIMiIP, AGH

Brak stałości wariancji Brak stacjonarności oraz losowości Wpływ innych czynników na badane zjawisko KISIM, WIMiIP, AGH

Wybór zmiennych do modelu W modelu powinny znaleźć się zmienne silnie skorelowane ze zmienną zależną i jak najsłabiej skorelowane między sobą. Aby wybrać optymalny model zawierający najsilniej skorelowane ze zmienną zależną zmienne niezależne stosuje się metody regresji krokowej: regresja krokowa postępująca – polega na kolejnym dołączaniu do modelu zmiennych objaśniających na podstawie statystyki F regresja krokowa wsteczna – budujemy model ze wszystkich dostępnych zmiennych, a następnie usuwamy z modelu najmniej istotne (statystyka F) Nie ma automatycznych, doskonałych metod doboru zmiennych. Obliczenia wspierane pakietem obliczeniowym należy korygować w oparciu o znajomość problemu. KISIM, WIMiIP, AGH

Regresja nieliniowa Kiedy mamy do czynienia z zależnością nieliniową sami musimy zdecydować jaką postać funkcji ma zależność. Może przyjąć jedną ze znanych postaci (np. wykładniczą, logarytmiczną czy wielomianową) wtedy stosujemy model linearyzowany lub zmieniać się w miarę wzrostu wartości zmiennej niezależnej (regresja segmentowa) Decyzję jaką zależność należy wziąć pod uwagę podejmujemy na podstawie wykresu rozrzutu KISIM, WIMiIP, AGH

Linearyzacja modelu regresji KISIM, WIMiIP, AGH

Po wybraniu właściwego modelu szacujemy jego parametry tak samo jak w modelu liniowej regresji wielorakiej KISIM, WIMiIP, AGH

Błąd addytywny i multiplikatywny Modele, których nie można przetransformować na postać liniową, mogą być szacowane przy pomocy estymacji nieliniowej. Zależy to w znacznej mierze od składnika błędu: Błąd addytywny. Zmienność błędu jest niezależna od zmiennej objaśniającej, to znaczy, że wielkość zmienności błędu jest jednakowa dla każdej wartości zmiennej. Jeśli składnik błędu w modelu jest addytywny, nie możemy zlinearyzować modelu przez logarytmowanie obu stron. Błąd multiplikatywny. Charakteryzuje się proporcjonalnymi (do skali zjawiska) wahaniami okresowymi. Po zlogarytmowaniu obu stron równania regresji, składnik błędu resztowego stanie się czynnikiem addytywnym w równaniu liniowym, a my możemy szacować b1 przy pomocy standardowej regresji wielorakiej. KISIM, WIMiIP, AGH

Modele regresji wewnętrznie nieliniowe Przy estymacji nieliniowej mamy do czynienia z pojęciem funkcji straty. Funkcja straty szacuje wielkość odchyleń wartości przewidywanych od wartości obserwowanych. Minimalizacja funkcji straty jest procedurą estymacji współczynników równania regresji. funkcja straty to najczęściej: suma kwadratów odchyleń ważona suma kwadratów odchyleń funkcja największej wiarygodności KISIM, WIMiIP, AGH

Szukanie minimum funkcji straty Stosuje się różne metody poszukiwania minimum funkcji straty: Metoda quasi-Newtona – minimalizacja w kierunku największego spadku (estymacja pochodnych) Metoda sympleksów (Neldera i Meada) – pozwala uniknąć minimów lokalnych Metoda Hooke’a-Jeevesa przemieszczania układu Metoda Rosenbrocka poszukiwania układu metody łączone KISIM, WIMiIP, AGH

Nieciągłe modele regresji Regresja kawałkami liniowa, regresja segmentowa Jeśli postać funkcji się zmienia wraz ze wzrostem wartości zmiennej KISIM, WIMiIP, AGH

Regresja ze zmienną jakościową Jeśli w analizie występują zmienne jakościowe (np. płeć, stanowisko pracy etc) można podzielić zbiorowość na jednorodne grupy pod względem poszczególnych wartości zmiennej a następnie porównać modele. Możemy również zastąpić zmienną jakościową sztucznymi zmiennymi binarnymi (np. płeć: kobieta = 1, mężczyzna = 0) KISIM, WIMiIP, AGH

KISIM, WIMiIP, AGH

model przybiera postać: CSK = 105,8 + 1,05*WIEK- 17,5*PŁEƱ7,37 (4,5) (0,089) (2,72) R2=0,87 PŁEĆ =0, CSK = 105,8 + 1,05*WIEK PŁEĆ =1, CSK = 88,3 + 1,05*WIEK KISIM, WIMiIP, AGH

Skategoryzowane wykresy rozrzutu KISIM, WIMiIP, AGH

Regresja logistyczna Modele dla odpowiedzi binarnych: Na przykład pacjenci powrócą do zdrowia po urazie albo nie; kandydaci do pracy przejdą albo nie przejdą testu kwalifikacyjnego, kupony mogą zostać lub nie zostać zwrócone itd. We wszystkich tych przypadkach może nas interesować estymacja modelu, który opisuje zależność między jedną lub kilkoma ciągłymi zmiennymi niezależnymi a binarną zmienną zależną. można zastosować procedury standardowej regresji wielorakiej i obliczyć standardowe współczynniki regresji. Model prowadzi do przewidywanych wartości większych niż 1 lub mniejszych niż 0. Jednakże przewidywane wartości, które są większe niż 1 lub mniejsze niż 0 nie są prawidłowe; tak więc, gdy stosuje się standardową procedurę regresji wielorakiej, ograniczenie zakresu zmiennej binarnej (np. między 0 a 1) jest ignorowane. KISIM, WIMiIP, AGH

Regresja logistyczna (logit) W modelu regresji logistycznej (logit), przewidywane wartości zmiennej zależnej nigdy nie będą mniejsze (lub równe) od 0 ani większe (lub równe) od 1, bez względu na wartości zmiennych niezależnych. gdzie  ai i = 0,...,k - to współczynniki regresji  x1, x2,...,xk - to zmienne niezależne, które mogą być mierzalne lub jakościowe. KISIM, WIMiIP, AGH

Funkcja logistyczna przyjmuje wartości od 0 do 1. Model może opisywać prawdopodobieństwo zachorowania lub szansę wyzdrowienia Model wprowadza pewną wartość progową, po przekroczeniu której gwałtownie wzrasta prawdopodobieństwo. Model często wykorzystywany w badaniach medycznych Szansa Iloraz szans KISIM, WIMiIP, AGH

Analiza szeregów czasowych KISIM, WIMiIP, AGH

Analiza szeregów czasowych Dotychczas mówiliśmy o próbach przekrojowych, czyli zbiorach wartości danej cechy zaobserwowanej przy badaniach różnych obiektów w tym samym czasie. W badaniach często mamy do czynienia z danymi historycznymi: wartości badanej cechy w różnych momentach czasu uporządkowane chronologicznie. Są to szeregi czasowe. Szereg czasowy tworzą przykładowo dane określające wielkość produkcji energii elektrycznej w kolejnych miesiącach lat 1991-94 KISIM, WIMiIP, AGH

KISIM, WIMiIP, AGH

Szeregi zasobów Szereg czasowy może dotyczyć badania tzw. zasobów (np. liczba ludności, liczba ciągników w rolnictwie, średnia temperatura dobowa). Szereg czasowy zasobów otrzymamy w wyniku prowadzenia pomiarów danego zjawiska w ściśle określonym momencie czasowym. KISIM, WIMiIP, AGH

Szeregi strumieni Szereg czasowy może dotyczyć badania tzw. strumieni (np. wielkość wydobycia węgla, ilość wyprodukowanej energii elektrycznej, wielkość produkcji mleka). Szereg czasowy strumieni otrzymamy w wyniku sumowania wartości badanego zjawiska w ściśle określonym przedziale czasowym. KISIM, WIMiIP, AGH

Składniki szeregu czasowego Tendencja rozwojowa (trend) Wahania okresowe Wahania koniunkturalne Wahania przypadkowe KISIM, WIMiIP, AGH

Dekompozycja szeregu czasowego Trend - Tendencja rozwojowa Wahania okresowe (roczne) KISIM, WIMiIP, AGH

Analiza szeregu czasowego Wyrównanie szeregu czasowego pozwala na wyeliminowanie z szeregu wahań przypadkowych, a przy odpowiednim postępowaniu także wahań okresowych. Porównanie szeregu pierwotnego z wyrównanym pozwala z kolei na określenie wskaźników mierzących wahania okresowe. KISIM, WIMiIP, AGH

Dwa podstawowe typy szeregów czasowych Addytywny – charakteryzuje się mniej więcej stałymi wahaniami okresowymi. Multiplikatywny – charakteryzuje się proporcjonalnymi (do skali zjawiska) wahaniami okresowymi. Addytywny Multiplikatywny KISIM, WIMiIP, AGH

Wyrównanie wykładnicze Wyrównanie metodą regresyjną (analityczne) Wyrównywanie szeregu Średnie ruchome Wyrównanie wykładnicze Wyrównanie metodą regresyjną (analityczne) KISIM, WIMiIP, AGH

Jest to najłatwiejsza metoda wyrównywania szeregu czasowego. Średnie ruchome Jest to najłatwiejsza metoda wyrównywania szeregu czasowego. Generalnie metoda ta polega na zastąpienia oryginalnego wyrazu szeregu czasowego średnią arytmetyczną obliczoną z nieparzystej lub parzystej liczby wyrazów szeregu. KISIM, WIMiIP, AGH

Średnie ruchome nieparzyste Jeżeli liczbę oryginalnych wyrazów szeregu wykorzystanych do obliczania średniej oznaczymy przez 2q+1 (gdzie q jest dowolną liczbą naturalną), to średnią znajdujemy z wzoru: KISIM, WIMiIP, AGH

Średnie ruchome scentrowane Jeżeli chcemy wyeliminować wahania okresowe, to średnie ruchome powinny być obliczane z takiej liczby wyników oryginalnego szeregu, które odpowiadają liczbie pomiarów w cyklu wahań. Przykładowo, przy rocznym cyklu wahań i miesięcznych pomiarach średnia powinna być obliczana z 12 pomiarów. Średniej obliczonej z parzystej liczby pomiarów nie ma gdzie przypisać w sensie dyskretnego charakteru czasu. Można temu zaradzić tak modyfikując wzór na obliczanie średniej, aby w liczniku wystąpiła suma nieparzystej liczby składników (dokładniej odpowiadająca nieparzystej liczbie punktów czasowych). KISIM, WIMiIP, AGH

Przykład obliczania średniej scentrowanej Dla szeregu czasowego opisującego wielkość produkcji energii elektrycznej budujemy średnie scentrowane 12 elementowe. Do obliczenia pierwszej średniej wykorzystamy: KISIM, WIMiIP, AGH

KISIM, WIMiIP, AGH

Wyrównanie wykładnicze Wyrównujemy szereg wg wzoru: gdzie a jest stałą z przedziału (0, 1) KISIM, WIMiIP, AGH

Wygładzanie analityczne Korzystając z metody najmniejszych kwadratów dobieramy odpowiedni model regresyjny. Zasadnicza przewaga tej metody wygładzania nad wcześniejszymi wynika z uzyskania równania opisującego trend KISIM, WIMiIP, AGH

Wskaźniki wahań okresowych Wielkość wahań okresowych wyrażana jest za pomocą tzw. wskaźników wahań okresowych (wskaźników sezonowości). Sposób ich konstrukcji zależy od tego, czy w badanym szeregu czasowym występuje trend, czy też nie. KISIM, WIMiIP, AGH

Wahania okresowe – brak trendu (1) Zdefiniowanie wahań okresowych wymaga wprowadzenia następującej definicji wyrazów szeregu czasowego: Gdzie dolny indeks t oznacza czas, a górny indeks i oznacza numer podokresu w cyklu d wahań. KISIM, WIMiIP, AGH

Wahania okresowe – brak trendu (2) Wskaźniki wahań okresowych Qi są definiowane jako ilorazy średnich z podokresów i średniej ogólnej: KISIM, WIMiIP, AGH

Wahania okresowe – miary absolutne Jeżeli szereg czasowy charakteryzuje się mniej więcej stałym poziomem zjawiska w czasie, to wahania okresowe można także wyrazić za pomocą miar absolutnych będących odchyleniami średnich dla danego podokresu od średniej ogólnej: KISIM, WIMiIP, AGH

Wahania okresowe – szereg z trendem (1) Tym razem nie można odnosić średnich z danego podokresu do średniej ogólnej, co wynika z faktu, że średnia ogólna źle oddaje przeciętny poziom zjawiska w danym podokresie. Do zbudowania wskaźników wahań okresowych wykorzystujemy szereg oryginalny i szereg wygładzony w taki sposób, aby reprezentował jedynie trend zjawiska. KISIM, WIMiIP, AGH

Wahania okresowe – szereg z trendem (2) szereg multiplikatywny Zaczynamy od wyznaczenia indywidualnych wskaźników sezonowości (iwst) dla tych wszystkich wyrazów oryginalnego szeregu, dla których dysponujemy wartościami wygładzonymi. KISIM, WIMiIP, AGH

Wahania okresowe – szereg z trendem (2) szereg multiplikatywny Wykorzystując indywidualne wskaźniki sezonowości wyznaczamy ich średnie z podokresów, są to tzw. surowe wskaźniki wahań okresowych , a ich suma z reguły nie jest równa liczbie podokresów d. Surowe wskaźniki wahań okresowych muszą być tak skorygowane, aby ich suma była równa liczbie podokresów d: KISIM, WIMiIP, AGH

Wahania okresowe-szereg addytywny Analogicznie jak w szeregu multiplikatywnym do zbu -dowania wskaźników wahań okresowych wykorzy-stujemy szereg oryginalny i szereg wygładzony w taki sposób, aby reprezentował jedynie trend zjawiska. W kolejnym kroku dla tych wszystkich wyrazów szeregu, dla których dysponujemy szeregiem wygładzonym, wyznaczamy indywidualne różnice postaci: KISIM, WIMiIP, AGH

Wahania okresowe-addytywny (3) Korzystając z dowolnej techniki wyznaczamy średnie indywidualnych różnic w kolejnych podokresach. Średnie te są surowymi wskaźnikami wahań okresowych i z reguły ich suma nie jest równa zero. Można temu zaradzić korygując (oczyszczając) surowe wskaźniki wahań wg wzoru: KISIM, WIMiIP, AGH

Wykorzystanie wskaźników wahań okresowych Wyznaczone wskaźniki wahań okresowych (oczyszczone) można wykorzystać następująco: 1. Dla tych szeregów, gdzie wygładzanie wykonane było metodami mechanicznymi można wyeliminować z oryginalnych wyrazów szeregu wahania okresowe w celu wyznaczenia trendu metodą analityczną 2. Mając równanie trendu można wykorzystać wskaźniki do przewidywania przyszłych wartości. KISIM, WIMiIP, AGH

Wykorzystanie wskaźników - wygładzanie Oczyszczone z wahań okresowych wyrazy szeregu znajdziemy z następujących wzorów: Szereg addytywny Szereg multiplikatywny KISIM, WIMiIP, AGH

Wskaźniki i prognoza Mając oszacowanie analityczne trendu możemy wyznaczyć przyszłą wartość analizowanego zjawiska w chwili T z uwzględnieniem wahań okresowych z wzorów: multiplikatywny addytywny KISIM, WIMiIP, AGH

Uwagi krytyczne do prognozy Dotychczasowe metody prognozy (równanie trendu + wskaźniki wahań okresowych) nie dają możliwości wyznaczenia błędów prognozy. Rozwiązaniem jest zbudowanie tzw. modelu tendencji rozwojowej, a następnie oszacowanie parametrów tego modelu metodami regresyjnymi Badaniem własności szeregów czasowych i prognozowaniem na ich podstawie zajmuje się analiza szeregów czasowych. Modele szeregów czasowych mają wiele postaci. Ich trzy klasyczne klasy to modele autoregresyjne (AR, od ang. AutoRegressive), scałkowane (I, Integrated) oraz z ruchomą średnią (MA, Moving Average). Złożenia tych trzech klas to m.in. popularne modele autoregresyjne ze średnią ruchomą (ARMA) oraz modele autoregresyjne scałkowane ze średnią ruchomą (ARIMA). KISIM, WIMiIP, AGH

KISIM, WIMiIP, AGH

Dekompozycja szeregu czasowego z wykorzystaniem wskaźników sezonowości. Średnia ruchoma dla k=3 Średnia ruchoma dla k=12 Dekompozycja sezonowa Census II KISIM, WIMiIP, AGH

ARIMA KISIM, WIMiIP, AGH