STATYSTYKA – kurs podstawowy wykład 10 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.

Slides:



Advertisements
Podobne prezentacje
Proces doboru próby. Badana populacja – (zbiorowość generalna, populacja generalna) ogół rzeczywistych jednostek, o których chcemy uzyskać informacje.
Advertisements

Klasyfikacja dalmierzy może być dokonywana przy założeniu rozmaitych kryteriów. Zazwyczaj przyjmuje się dwa:  ze względu na rodzaj fali (jej długości)
STATYSTYKA – kurs podstawowy wykład 9 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.
Ekonometria stosowana WYKŁAD 4 Piotr Ciżkowicz Katedra Międzynarodowych Studiów Porównawczych.
STATYSTYKA – kurs podstawowy wykład 1 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.
Analiza rozkładu empirycznego dr Marta Marszałek Zakład Statystyki Stosowanej Instytut Statystyki i Demografii Kolegium.
© Matematyczne modelowanie procesów biotechnologicznych - laboratorium, Studium Magisterskie Wydział Chemiczny Politechniki Wrocławskiej, Kierunek Biotechnologia,
Ekonometria WYKŁAD 7 Piotr Ciżkowicz Katedra Międzynarodowych Studiów Porównawczych.
ZASTOSOWANIE FUNKCJI WYKŁADNICZEJ I LOGARYTMICZNEJ DO OPISU RUCHU DRGAJĄCEGO Agnieszka Wlocka Agnieszka Szota.
Ekonometria stosowana Slajdy pomocnicze Piotr Ciżkowicz Katedra Międzynarodowych Studiów Porównawczych.
STATYSTYKA MATEMATYCZNA wykład 1 - wprowadzenie Dr Aldona Migała-Warchoł.
Ekonometria stosowana Autokorelacja Piotr Ciżkowicz Katedra Międzynarodowych Studiów Porównawczych.
Niepewności pomiarowe. Pomiary fizyczne. Pomiar fizyczny polega na porównywaniu wielkości mierzonej z przyjętym wzorcem, czyli jednostką. Rodzaje pomiarów.
Ćwiczenia Zarządzanie Ryzykiem Renata Karkowska, ćwiczenia „Zarządzanie ryzykiem” 1.
Ekonometria Wykład 1 Uwarunkowania modelowania ekonometrycznego. Uogólniona metoda najmniejszych kwadratów dr hab. Mieczysław Kowerski.
Cel analizy statystycznej. „Człowiek –najlepsza inwestycja”
Wyrażenia Algebraiczne Bibliografia Znak 1Znak 2 Znak 3 Znak 4 Znak 5 Znak 6 Znak 7 Znak 8 Znak 9 Znak 10 Znak 11.
Ryzyko a stopa zwrotu. Standardowe narzędzia inwestowania Analiza fundamentalna – ocena kondycji i perspektyw rozwoju podmiotu emitującego papiery wartościowe.
Podstawowe pojęcia termodynamiki chemicznej -Układ i otoczenie, składniki otoczenia -Podział układów, fazy układu, parametry stanu układu, funkcja stanu,
Klasyczny model regresji liniowej (KMRL) Zakład Statystyki Stosowanej Instytut Statystyki i Demografii Kolegium Analiz Ekonomicznych Szkoła Główna Handlowa.
Bezpieczeństwo i zdrowie w pracy dotyczy każdego. Jest dobre dla ciebie. Dobre dla firmy. Partnerstwo dla prewencji Co badanie ESENER może nam powiedzieć.
Analiza wariancji (ANOVA) Zakład Statystyki Stosowanej Instytut Statystyki i Demografii Kolegium Analiz Ekonomicznych Szkoła Główna Handlowa w Warszawie.
Zmienne losowe Zmienne losowe oznacza się dużymi literami alfabetu łacińskiego, na przykład X, Y, Z. Natomiast wartości jakie one przyjmują odpowiednio.
Ekonometria WYKŁAD 1 Piotr Ciżkowicz Katedra Międzynarodowych Studiów Porównawczych.
… przemy ś lenia pedagogiczne. „Najważniejszym okresem w życiu nie są lata studiowania na wyższej uczelni, ale te najwcześniejsze, czyli okres od narodzenia.
Analiza tendencji centralnej „Człowiek – najlepsza inwestycja”
Równowaga rynkowa w doskonałej konkurencji w krótkim okresie czasu Równowaga rynkowa to jest stan, kiedy przy danej cenie podaż jest równa popytowi. p.
Funkcja liniowa Przygotował: Kajetan Leszczyński Niepubliczne Gimnazjum Przy Młodzieżowym Ośrodku Wychowawczym Księży Orionistów W Warszawie Ul. Barska.
© Prof. Antoni Kozioł, Wydział Chemiczny Politechniki Wrocławskiej MATEMATYCZNE MODELOWANIE PROCESÓW BIOTECHNOLOGICZNYCH Prezentacja – 4 Matematyczne opracowywanie.
Badanie dynamiki zjawisk dr Marta Marszałek Zakład Statystyki Stosowanej Instytut Statystyki i Demografii Kolegium Analiz.
Podstawy analizy portfelowej
Metody Analizy Danych Doświadczalnych Wykład 9 ”Estymacja parametryczna”
BADANIA STATYSTYCZNE. WARUNKI BADANIA STATYSTYCZNEGO musi dotyczyć zbiorowościstatystycznej musi określać prawidłowościcharakteryzujące całą zbiorowość.
Matematyka przed egzaminem czyli samouczek dla gimnazjalisty Przygotowała Beata Czerniak FUNKCJE.
Teoria masowej obsługi Michał Suchanek Katedra Ekonomiki i Funkcjonowania Przedsiębiorstw Transportowych.
Menu Jednomiany Wyrażenia algebraiczne -definicja Mnożenie i dzielenie sum algebraicznych przez jednomian Mnożenie sum algebraicznych Wzory skróconego.
STATYSTYKA – kurs podstawowy wykład 11
Optymalna wielkość produkcji przedsiębiorstwa działającego w doskonałej konkurencji (analiza krótkookresowa) Przypomnijmy założenia modelu doskonałej.
Metoda zmiennych instrumentalnych i uogólniona metoda momentów
Metody sztucznej inteligencji - Technologie rozmyte i neuronowe 2015/2016 Perceptrony proste nieliniowe i wielowarstwowe © Kazimierz Duzinkiewicz, dr hab.
Zmienna losowa dwuwymiarowa Dwuwymiarowy rozkład empiryczny Zakład Statystyki Stosowanej Instytut Statystyki i Demografii Kolegium Analiz Ekonomicznych.
POP i SIR POK1 i POK2.
Renata Maciaszczyk Kamila Kutarba. Teoria gier a ekonomia: problem duopolu  Dupol- stan w którym dwaj producenci kontrolują łącznie cały rynek jakiegoś.
Dorota Kwaśniewska OBRAZY OTRZYMYWA NE W SOCZEWKAC H.
Regresja. Termin regresja oznacza badanie wpływu jednej lub kilku zmiennych tzw. objaśniających na zmienną, której kształtowanie się najbardziej nas interesuje,
Budżetowanie kapitałowe cz. III. NIEPEWNOŚĆ senesu lago NIEPEWNOŚĆ NIEMIERZALNA senesu strice RYZYKO (niepewność mierzalna)
O PARADOKSIE BRAESSA Zbigniew Świtalski Paweł Skałecki Wydział Matematyki, Informatyki i Ekonometrii Uniwersytet Zielonogórski Zakopane 2016.
Test analizy wariancji dla wielu średnich – klasyfikacja pojedyncza
mutacyjnego algorytmu ewolucyjnego
Katedra Międzynarodowych Studiów Porównawczych
terminologia, skale pomiarowe, przykłady
MATEMATYCZNE MODELOWANIE PROCESÓW BIOTECHNOLOGICZNYCH
Przywiązanie partnerów a ich kompetencje społeczne
Pojedyńczy element, mała grupa
Elementy fizyki kwantowej i budowy materii
Ekonometria stosowana
Własności statystyczne regresji liniowej
Weryfikacja hipotez statystycznych
FORMUŁOWANIE HIPOTEZ STATYSTYCZNYCH
REGRESJA WIELORAKA.
Analiza zależności pomiędzy zmiennymi losowymi (danymi empirycznymi)
Statystyka i Demografia wykład 9
Prawa ruchu ośrodków ciągłych c. d.
WYBRANE ZAGADNIENIA PROBABILISTYKI
Elipsy błędów.
Własności asymptotyczne metody najmniejszych kwadratów
Zapis prezentacji:

STATYSTYKA – kurs podstawowy wykład 10 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii

Wnioskowanie o współzależności cech statystycznych sprowadza się do: 1.Wnioskowania o zależności typu stochastycznego i estymacji jego siły 2.Estymacji siły związku korelacyjnego i wnioskowania o jego istotności statystycznej (sprawdzenie, czy związek korelacyjny występuje również w całej populacji) 3.Wnioskowania o regresji cech statystycznych

Odrzucenie hipotezy o niezależności stochastycznej cech statystycznych skłania do szukania odpowiedzi na pytanie: czy stwierdzona zależność może przybierać bardziej konkretne formy (np. związek korelacyjny) i czy można ją modelować (regresja). SIŁA ZWIĄZKU STOCHASTYCZNEGO Modelowanie związku między cechami statystycznymi ma sens wtedy, kiedy występuje między nimi związek (stochastyczny lub korelacyjny)

Korelacja cech statystycznych polega na przyporządkowaniu wartościom jednej cechy średnich wartości cechy drugiej. Średnie te są charakterystykami kolejnych rozkładów warunkowych cechy uznanej za zależną ZWIĄZEK KORELACYJNY Czas dotarcia (y 0i - y 1i > Liczba rodzeństwa razem razem Sprawdźmy, jak czas dotarcia zależy od liczby rodzeństwa Czas dotarcia – zmienna zależna Liczba rodzeństwa – zmienna niezależna

Rozkłady czasu dotarcia na uczelnię w zależności od liczby rodzeństwa ZWIĄZEK KORELACYJNY (y 0i - y 1i >Liczba rodzeństwa suma razem Korelacja czasu dotarcia względem liczby rodzeństwa Empiryczna krzywa regresji cechy Y względem cechy X – czasu dotarcia względem liczby rodzeństwa Krzywa regresji I rodzaju – funkcja przypisująca wartościom zmiennej losowej niezależnej X średnie warunkowe zmiennej losowej zależnej Y

KLASYCZNY MODEL REGRESJI LINIOWEJ Empiryczna krzywa regresji wyznaczana na podstawie dwuwymiarowego rozkładu empirycznego (z próby) jest przybliżeniem nieznanej krzywej regresji I rodzaju Pozwala wyrobić sobie pogląd co do przybliżonego kształtu funkcji regresji I rodzaju, ale nie pozwala na określenie analitycznej postaci tej zależności oraz wartości jej parametrów Celem analizy regresji jest predykcja, czyli przewidywanie, jaką wartość przyjmie zmienna zależna przy ustalonych wartościach zmiennych uznanych za niezależne Ze względu na brak postaci funkcyjnej empiryczna krzywa regresji nie może być wykorzystywana do predykcji

KLASYCZNY MODEL REGRESJI LINIOWEJ Potrzebujemy znać formę analityczną krzywej regresji – przybliżenie za pomocą funkcji matematycznej związku występującego między cechami statystycznymi, określane jest mianem REGRESJI II RODZAJU Model regresji: gdzie: Y – zmienna (cecha) zależna, opisywana przez model - regresja II rodzaju ε – zmienna losowa opisująca odchylenia wartości zmiennej zależnej od jej regresji II rodzaju

KLASYCZNY MODEL REGRESJI LINIOWEJ Jak zatem skonstruować model regresji, czyli w sposób analityczny określić, jak kształtują się wartości zmiennej losowej pod wpływem innej lub innych zmiennych? Główny składnik to funkcja regresji Potrzebujemy zatem określić funkcję matematyczną dla - jej postać określana jest zwykle na podstawie wyników z próby - jej parametry estymuje się również na podstawie wyników z próby Inny sposób zapisu modelu regresji: Wyraża wpływ, jaki na zmienną zależną Y wywiera zmienna niezależna X Składnik losowy – reprezentuje losowe odchylenia wartości Y od, w których wyraża się łączny wpływ wszystkich innych (poza X) czynników oddziałujących na zmienną Y

KLASYCZNY MODEL REGRESJI LINIOWEJ Klasyczny model regresji liniowej (przypadek dwuwymiarowy) - gdy dla każdej ustalonej wartości jednej zmiennej losowej (zmienna X) druga zmienna losowa (zmienna losowa Y) ma warunkowy rozkład z wartością oczekiwaną E(Y|X = x) = αx + β oraz wariancją D 2 (Y|X = x) = σ 2 Funkcja regresji I rodzaju Y względem X jest liniowa Wariancja zmiennej losowej Y w jej warunkowych rozkładach jest stała – nie zależy od wartości x Współczynnik regresji Stała regresji, wyraz wolny Składnik losowy

KLASYCZNY MODEL REGRESJI LINIOWEJ Znajomość równania regresji pozwala przewidywać wartości cechy statystycznej uznanej za zależną (u nas Y) Przewidywanie to nosi nazwę predykcji Dokładność tych predykcji zależy: 1.Od tego, jak „blisko” regresji I rodzaju jest regresja rodzaju II – czyli jaki jest zakres determinacji związku cech przez ustaloną regułę matematyczną 2.Od tego, w jakim stopniu składnik losowy ε wyraża oddziaływanie czynników przypadkowych nie uwzględnionych w modelu – czyli takie właściwości składnika losowego, które gwarantują jego losowość

KLASYCZNY MODEL REGRESJI LINIOWEJ Własności składnika losowego ε : 1.E(ε) = 0 – przeciętnie rzecz ujmując, nie występuje systematyczny wpływ składnika losowego ε na zmienną zależną Y 2. D 2 (ε) = σ 2 – wariacja składnika losowego jest stała, co oznacza, że zakres zmienności składnika losowego ε jest niezależny od zmiennej niezależnej X 3.Cov(ε i, ε j ) = 0 dla i ≠ j – co oznacza, że czynniki, które kształtują zmienną ε, nie są ze sobą powiązane w sposób sugerujący jakąś prawidłowość

KLASYCZNY MODEL REGRESJI LINIOWEJ Modelowanie związku między cechami statystycznymi polega na przyjęciu założeń: 1.o postaci zależności (my zajmujemy się na tym wykładzie wyłącznie zależnościami o charakterze liniowym) 2.o warunkach, jakie powinny spełniać cechy, by modelowanie było wiarygodne i mogło służyć predykcji Ad. 1 - zależność liniowa Ad. 2 - założenia dotyczące własności składnika losowego

KLASYCZNY MODEL REGRESJI LINIOWEJ Jak zatem skonstruować model regresji, czyli w sposób analityczny określić, jak kształtują się wartości cechy statystycznej pod wpływem innej lub innych cech? Potrzebujemy zatem określić funkcję matematyczną dla czyli: Jak znaleźć wartości liczbowe dla parametrów α i β funkcji regresji? Zastosować metodę estymacji zwaną Metodą Najmniejszych Kwadratów (MNK) Liniowa funkcja regresji, wyznaczana z próby losowej

KLASYCZNY MODEL REGRESJI LINIOWEJ Jeśli na mamy na płaszczyźnie zbiór punktów (x i, y i ), to MNK polega na wyznaczeniu prostej, która leży „najbliżej” tych punktów Wykres rozrzutu punktów empirycznych – jego budowa należy do rutynowych czynności poprzedzających estymację parametrów modelu regresji; pozwala wybrać odpowiedni analityczny typ funkcji (np. funkcja liniowa, kwadratowa, logarytmiczna itd.)

KLASYCZNY MODEL REGRESJI LINIOWEJ Warunek prawidłowego położenia prostej można zapisać jako minimum sumy kwadratów długości „pionowych” odcinków łączących punkty empiryczne z prostą (x i, y i ) Wartości teoretyczne zmiennej zależnej Y

KLASYCZNY MODEL REGRESJI LINIOWEJ Powyższe wyrażenie jest funkcją niewiadomych α i β W celu wyznaczenia α i β przyrównujemy pochodne cząstkowe względem tych wielkości do 0.

KLASYCZNY MODEL REGRESJI LINIOWEJ Estymatory MNK parametrów funkcji regresji Estymatory te są nieobciążone i najefektywniejsze. Pozwalają szacować parametry α i β klasycznego modelu regresji bez błędów systematycznych Pozwalają szacować parametry α i β klasycznego modelu regresji z najmniejszym losowym błędem standardowym

KLASYCZNY MODEL REGRESJI LINIOWEJ Miarą błędów szacunku wartości parametrów α oraz β dokonanych za pomocą estymatorów oraz są standardowe błędy estymatorów (odchylenia standardowe estymatorów) Ale nie znamy wartości σ 2, czyli wariancji składników losowych

KLASYCZNY MODEL REGRESJI LINIOWEJ Podstawą estymacji wariancji składników losowych są reszty e i wyznaczone na podstawie formuły: MNK gwarantuje, że: 1. 2.

KLASYCZNY MODEL REGRESJI LINIOWEJ Estymatory standardowych błędów szacunku Zastępujemy wartości σ 2, przez S 2 (e)

PRZYKŁAD Dane na temat liczby odwiedzających punkt sprzedaży oraz realizowanych w tym punkcie dziennych obrotów zestawiono w tabeli. Należy wyznaczyć równanie regresji wielkości dziennych obrotów względem liczby odwiedzających oraz zinterpretować parametry (strukturalne i stochastyczne) równania regresji. Liczba odwiedzających Wielkość obrotów (tys. zł) 202,5 253,1 324,5 215,3 356,4 367,8 428,9 399,5 3810,3 4111,5 5112,1 Liczba odwiedzających – X (zmienna niezależna) Wielkość obrotów – Y (zmienna zależna)

PRZYKŁAD n = 11 xixi yiyi 202,5 253,1 324,5 215,3 356,4 367,8 428,9 399,5 3810,3 4111,5 5112, , , ,8 373,8 370,5 391,4 471,5 617, * 2,5 = = 400

PRZYKŁAD Liczba odwiedzających Wielkość obrotów (tys. zł) 202,5 253,1 324,5 215,3 356,4 367,8 428,9 399,5 3810,3 4111,5 5112,1 Równanie regresji Model regresji 0,316 – wraz ze wzrostem liczby odwiedzających o 1 osobę obroty wzrastają średnio o 0,316 tys. zł -3,467 - nie interpretuje się

PRZYKŁAD n = 11 xixi yiyi 202,5 253,1 324,5 215,3 356,4 367,8 428,9 399,5 3810,3 4111,5 5112, , , ,8 373,8 370,5 391,4 471,5 617, ,851 4,430 6,641 3,167 7,589 7,905 9,800 8,853 8,537 9,484 12,643 -0,351 -1,330 -2,141 2,133 -1,189 -0,105 -0,900 0,647 1,763 2,016 -0,543 0,123 1,770 4,586 4,551 1,414 0,011 0,810 0,419 3,109 4,063 0,295 0,316*20 – 3,467 = 2,8512,5 - 2,851 = -0,351

PRZYKŁAD n = 11 xixi yiyi 202,5 253,1 324,5 215,3 356,4 367,8 428,9 399,5 3810,3 4111,5 5112, , , ,8 373,8 370,5 391,4 471,5 617, ,851 4,430 6,641 3,167 7,589 7,905 9,800 8,853 8,537 9,484 12,643 -0,351 -1,330 -2,141 2,133 -1,189 -0,105 -0,900 0,647 1,763 2,016 -0,543 0,123 1,770 4,586 4,551 1,414 0,011 0,810 0,419 3,109 4,063 0,295 Teoretyczna wielkość obrotów różni się od obserwowanej w próbie wielkości obrotów o średnio 1,533 tys. zł.

PRZYKŁAD n = 11 xixi yiyi 202,5 253,1 324,5 215,3 356,4 367,8 428,9 399,5 3810,3 4111,5 5112,1 Przyjmując, że wraz ze wzrostem liczby odwiedzających o 1 osobę obroty wzrastają średnio o 0,316 tys. zł, mylimy się przeciętnie o 0,051 tys. zł.

PRZYKŁAD n = 11 xixi yiyi 202,5 253,1 324,5 215,3 356,4 367,8 428,9 399,5 3810,3 4111,5 5112,1 Przyjmując, że wraz mylimy się przeciętnie o 1,83

PRZYKŁAD Liczba odwiedzających Wielkość obrotów (tys. zł) 202,5 253,1 324,5 215,3 356,4 367,8 428,9 399,5 3810,3 4111,5 5112,1 Równanie regresji Model regresji [0,051] [1,83] [0,051] [1,83] [1,533] Parametry strukturalne Parametry stochastyczne

KLASYCZNY MODEL REGRESJI LINIOWEJ Wnioskowanie w klasycznym modelu regresji – badanie istotności ocen parametrów funkcji regresji liniowej ISTOTNOŚĆ WSPÓŁCZYNNIKA REGRESJI Hipoteza zerowa: H 0 : α = 0 – współczynnik regresji liniowej jest nieistotny statystycznie (w populacji nie różni się istotnie od 0) Hipoteza alternatywna: H 1 : α ≠ 0 – współczynnik regresji liniowej jest istotny statystycznie (w populacji różni się istotnie od 0) H 1 : α > 0 – współczynnik regresji liniowej jest istotnie dodatni (w populacji jest istotnie większy od 0) H 1 : α < 0 – współczynnik regresji liniowej jest istotnie ujemny (w populacji jest istotnie mniejszy od 0)

Statystyka testująca: rozkład t – Studenta v = n – 2 Obszar odrzucenia wyznacza wartość t α,v odczytania z tablic wartości krytycznych rozkładu t – Studenta Kształt obszaru odrzucenia zależy od sposobu sformułowania hipotezy alternatywnej: może to być obszar dwustronny lub jednostronny

KLASYCZNY MODEL REGRESJI LINIOWEJ Wnioskowanie w klasycznym modelu regresji – badanie istotności ocen parametrów funkcji regresji liniowej ISTOTNOŚĆ WYRAZU WOLNEGO Hipoteza zerowa: H 0 : β = 0 – wyraz wolny jest nieistotny statystycznie (w populacji nie różni się istotnie od 0) Hipoteza alternatywna: H 1 : β ≠ 0 – wyraz wolny jest istotny statystycznie (w populacji różni się istotnie od 0) H 1 : β > 0 – wyraz wolny jest istotnie dodatni (w populacji jest istotnie większy od 0) H 1 : β < 0 – wyraz wolny jest istotnie ujemny (w populacji jest istotnie mniejszy od 0)

Statystyka testująca: rozkład t – Studenta v = n – 2 Obszar odrzucenia wyznacza wartość t α,v odczytania z tablic wartości krytycznych rozkładu t – Studenta Kształt obszaru odrzucenia zależy od sposobu sformułowania hipotezy alternatywnej: może to być obszar dwustronny lub jednostronny

PRZYKŁAD Model regresji [0,051] [1,83] [1,533] Istotność współczynnika regresji H 0 : α = 0 – współczynnik regresji liniowej jest nieistotny statystycznie (w populacji nie różni się istotnie od 0) H 1 : α ≠ 0 – współczynnik regresji liniowej jest istotny statystycznie (w populacji różni się istotnie od 0) 2,262 < t obl  na poziomie istotności 0,05 odrzucamy hipotezę zerową na rzecz hipotezy alternatywnej; współczynnik regresji liniowej jest istotny statystycznie; Z prawdopodobieństwem 0,05 możemy popełnić błąd I rodzaju, czyli odrzucić hipotezę zerową, mimo że jest ona prawdziwa

PRZYKŁAD Model regresji [0,051] [1,83] [1,533] Istotność wyrazu wolnego regresji H 0 : β = 0 – wyraz wolny jest nieistotny statystycznie (w populacji nie różni się istotnie od 0) H 1 : β ≠ 0 – wyraz wolny jest istotny statystycznie (w populacji różni się istotnie od 0) -2,262 < t obl < 2,262  na poziomie istotności 0,05 brak jest podstaw do odrzucenia hipotezy zerowej, czyli wyraz wolny jest nieistotny statystycznie ;