REGRESJA I KORELACJA.

Slides:



Advertisements
Podobne prezentacje
Statystyczna analiza danych
Advertisements

Proces doboru próby. Badana populacja – (zbiorowość generalna, populacja generalna) ogół rzeczywistych jednostek, o których chcemy uzyskać informacje.
Ekonometria stosowana WYKŁAD 4 Piotr Ciżkowicz Katedra Międzynarodowych Studiów Porównawczych.
Zajęcia 1-3 Układ okresowy pierwiastków. Co to i po co? Pojęcie masy atomowej, masy cząsteczkowej, masy molowej Proste obliczenia stechiometryczne. Wydajność.
Excel 2007 dla średniozaawansowanych zajęcia z dnia
STATYSTYKA MATEMATYCZNA wykład 1 - wprowadzenie Dr Aldona Migała-Warchoł.
Niepewności pomiarowe. Pomiary fizyczne. Pomiar fizyczny polega na porównywaniu wielkości mierzonej z przyjętym wzorcem, czyli jednostką. Rodzaje pomiarów.
Cel analizy statystycznej. „Człowiek –najlepsza inwestycja”
Ryzyko a stopa zwrotu. Standardowe narzędzia inwestowania Analiza fundamentalna – ocena kondycji i perspektyw rozwoju podmiotu emitującego papiery wartościowe.
Klasyczny model regresji liniowej (KMRL) Zakład Statystyki Stosowanej Instytut Statystyki i Demografii Kolegium Analiz Ekonomicznych Szkoła Główna Handlowa.
Analiza wariancji (ANOVA) Zakład Statystyki Stosowanej Instytut Statystyki i Demografii Kolegium Analiz Ekonomicznych Szkoła Główna Handlowa w Warszawie.
Zmienne losowe Zmienne losowe oznacza się dużymi literami alfabetu łacińskiego, na przykład X, Y, Z. Natomiast wartości jakie one przyjmują odpowiednio.
Analiza tendencji centralnej „Człowiek – najlepsza inwestycja”
Przygotowały: Laura Andrzejczak oraz Marta Petelenz- Łukasiewicz z klasy 2”D”
Funkcja liniowa Przygotował: Kajetan Leszczyński Niepubliczne Gimnazjum Przy Młodzieżowym Ośrodku Wychowawczym Księży Orionistów W Warszawie Ul. Barska.
© Prof. Antoni Kozioł, Wydział Chemiczny Politechniki Wrocławskiej MATEMATYCZNE MODELOWANIE PROCESÓW BIOTECHNOLOGICZNYCH Prezentacja – 4 Matematyczne opracowywanie.
STATYSTYKA – kurs podstawowy wykład 10 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.
W KRAINIE TRAPEZÓW. W "Szkole Myślenia" stawiamy na umiejętność rozumowania, zadawania pytań badawczych, rozwiązywania problemów oraz wykorzystania wiedzy.
Metody Analizy Danych Doświadczalnych Wykład 9 ”Estymacja parametryczna”
Skuteczności i koszty windykacji polubownej Wyniki badań zrealizowanych w ramach grantu Narodowego Centrum Nauki „Ocena poziomu rzeczywistej.
Matematyka przed egzaminem czyli samouczek dla gimnazjalisty Przygotowała Beata Czerniak FUNKCJE.
Teoria masowej obsługi Michał Suchanek Katedra Ekonomiki i Funkcjonowania Przedsiębiorstw Transportowych.
Metody sztucznej inteligencji - Technologie rozmyte i neuronowe 2015/2016 Perceptrony proste nieliniowe i wielowarstwowe © Kazimierz Duzinkiewicz, dr hab.
Zmienna losowa dwuwymiarowa Dwuwymiarowy rozkład empiryczny Zakład Statystyki Stosowanej Instytut Statystyki i Demografii Kolegium Analiz Ekonomicznych.
Dorota Kwaśniewska OBRAZY OTRZYMYWA NE W SOCZEWKAC H.
Regresja. Termin regresja oznacza badanie wpływu jednej lub kilku zmiennych tzw. objaśniających na zmienną, której kształtowanie się najbardziej nas interesuje,
Budżetowanie kapitałowe cz. III. NIEPEWNOŚĆ senesu lago NIEPEWNOŚĆ NIEMIERZALNA senesu strice RYZYKO (niepewność mierzalna)
O PARADOKSIE BRAESSA Zbigniew Świtalski Paweł Skałecki Wydział Matematyki, Informatyki i Ekonometrii Uniwersytet Zielonogórski Zakopane 2016.
Opracowała: wicedyrektor Monika wołyńska, listopad 2016
STATYSTYKA OPISOWA WYKŁADY.
Test analizy wariancji dla wielu średnich – klasyfikacja pojedyncza
Funkcje jednej zmiennej
Okrąg i koło Rafał Świdziński.
W kręgu matematycznych pojęć
Opracowanie wyników pomiaru
Wyznaczanie miejsc zerowych funkcji
Katedra Międzynarodowych Studiów Porównawczych
SYSTEM KWALIFIKACJI, AWANSÓW I SPADKÓW
System wspomagania decyzji DSS do wyznaczania matematycznego modelu zmiennej nieobserwowalnej dr inż. Tomasz Janiczek.
terminologia, skale pomiarowe, przykłady
MATEMATYCZNE MODELOWANIE PROCESÓW BIOTECHNOLOGICZNYCH
Przywiązanie partnerów a ich kompetencje społeczne
Prowadzący: dr Krzysztof Polko
FIGURY.
Modele SEM założenia formalne
Podstawy automatyki I Wykład /2016
Funkcja – definicja i przykłady
Programowanie obiektowe
Pojedyńczy element, mała grupa
Opracowała: Monika Grudzińska - Czerniecka
Elementy fizyki kwantowej i budowy materii
Analiza rozkładu empirycznego
Zmienne losowe wielowymiarowe
Własności statystyczne regresji liniowej
Porównywanie średnich prób o rozkładach normalnych (testy t-studenta)
FORMUŁOWANIE HIPOTEZ STATYSTYCZNYCH
REGRESJA WIELORAKA.
Wyrównanie sieci swobodnych
Analiza współzależności zjawisk
Analiza zależności pomiędzy zmiennymi losowymi (danymi empirycznymi)
ROZKŁADY STATYSTYCZNE ZMIENNYCH MIERZALNYCH
Wytrzymałość materiałów
Statystyka i Demografia wykład 9
Prawa ruchu ośrodków ciągłych c. d.
…rozkłady, kowariancja, korelacja, estymacja i weryfikacja hipotez…
WYBRANE ZAGADNIENIA PROBABILISTYKI
Wiesław Niebudek 7 grudnia 2017r.
Elipsy błędów.
Zapis prezentacji:

REGRESJA I KORELACJA

1. DWUWYMIAROWE CECHY STATYSTYCZNE Dotychczas analizowaliśmy strukturę zbiorowości ze względu na jedną wybraną cechę statystyczną. Jeżeli w badaniu uwzględnimy cechy X i Y populacji i analizujemy ich współzależność, to mówimy o dwuwymiarowej cesze (X,Y). Analiza współzależności cech obejmuje dwa zagadnienia: - zagadnienie korelacji - badanie, czy istnieje zależność między cechami, jaka jest jej siła, jaki jest jej kształt (liniowy, tzn. czy wartości jednej cechy są proporcjonalne do wartości drugiej, czy krzywoliniowy), - zagadnienie regresji – wyznaczanie funkcji opisującej analitycznie związek między cechami.

Związki między cechami Związki jednostronne – występują wtedy, gdy jedna z cech wpływa na drugą ale nie zachodzi oddziaływanie w przeciwną stronę. Jedna z cech jest wówczas przyczyną a druga skutkiem (np. staż pracy – przyczyna; wysokość wynagrodzenia – skutek). Związki dwustronne – oddziaływanie cech jest wzajemne (np. poziom nauczania na uczelni, wysokość czesnego). Cechę, która w danym związku jest przyczyną nazywamy cechą niezależną, a tę, która jest skutkiem nazywamy cechą zależną. Związki pozorne – związki między cechami, które powinna wyeliminować analiza jakościowa , chociaż analiza ilościowa wskazywałaby na ich istnienie (np. liczba lekarzy w mieście i liczba zgonów w tym mieście).

Rozkład cechy dwuwymiarowej Prezentacja rozkładu cechy dwuwymiarowej Rozkładem dwuwymiarowe j cechy (X,Y) nazywamy uporządkowany zbiór par wartości cechy (xi , yj) wraz z przyporządkowanymi im liczebnościami nij , określającymi, ile razy dana para wartości wystąpiła. Prezentacja rozkładu cechy dwuwymiarowej W zależności od tego, jak duża jest liczebność zbiorowości i jak często powtarzają się te same pary wartości cechy (xi , yj) , stosujemy różne formy prezentacji rozkładu. Szereg dwuwymiarowy sporządzamy, gdy pary wartości rzadko powtarzają się w rozkładzie. L.p xi yi 1 x1 y1 2 x2 y2 . n xn yn

Prezentacja rozkładu cechy dwuwymiarowej Tablicę korelacyjną sporządzamy, gdy pary wartości wielokrotnie powtarzają się. Rozkład brzegowy cechy X cechy Y yj xxi y1 y2 . yl ni . Xx1 n11 n12 n1l n1 . Xx2 n21 n22 n2l n2 . xxk nk1 nk2 nkl nk . n. j n.1 n.2 n. l n

Graficzna prezentacja rozkładu cechy dwuwymiarowej Diagram korelacyjny

Przykład 1.1. Do badań wylosowano 6 sklepów branży konfekcyjnej w Łodzi odnotowując ich przeciętny dzienny obrót Y (w tys. zł) oraz powierzchnię X (w m2). Rozkład cechy przedstawia szereg dwuwymiarowy oraz diagram korelacyjny Z diagramu korelacyjnego widać, że między powierzchnią sklepów a ich dziennym obrotem istnieje liniowa korelacja dodatnia.

Przykład 1.2. Z populacji robotników zatrudnionych w dużym zakładzie przemysłowym wylosowano niezależnie 400 robotników i zbadano ich staż i wydajność pracy. Wyniki zostały pogrupowane w tablicę korelacyjną ( X- staż pracy w latach, Y – wydajność w liczbie sztuk wyrobu na godzinę)

Parametry rozkładów brzegowych ANALIZA KORELACJI CECH MIERZALNYCH Do pomiaru siły zależności korelacyjnej cech mierzalnych wykorzystuje się wartości średnie i wariancje rozkładów brzegowych i warunkowych oraz kowariancję (parametr łącznego rozkładu cech). Parametry rozkładów brzegowych Wartości średnie rozkładów brzegowych Wariancje rozkładów brzegowych

Parametry rozkładów warunkowych Dla uproszczenia przyjmujemy, że cechą niezależną jest cecha X dlatego podajemy tylko parametry rozkładów warunkowych dla cechy Y. Warunkowe wartości średnie cechy Y Warunkowe wariancje cechy Y

Parametr łącznego rozkładu cech – kowariancja lub

Przykład 2.1. Wyznaczymy parametry rozkładów cech X i Y oraz kowariancję cechy (X,Y) z przykładu 1.1.

Przykład 2.2. Wyznaczymy parametry rozkładów brzegowych i warunkowych cech X i Y oraz kowariancję cechy (X,Y) z przykładu 1.1.

Miary siły i liniowości związku korelacyjnego Współczynnik korelacji liniowej Pearsona - rxy Warunki stosowania: obie cechy są mierzalne może być stosowany tylko do oceny siły zależności liniowej. Własności współczynnika korelacji przyjmuje wartości z przedziału <-1;1>, dodatnia wartość współczynnika oznacza korelację dodatnią (ze wzrostem wartości cechy X rosną wartości cechy Y), ujemna wartość współczynnika oznacza korelację ujemną ( ze wzrostem wartości cechy X maleją wartości cechy Y), oznacza, że cechy nie są skorelowane liniowo (może zachodzić korelacja nieliniowa) oznacza, że wszystkie punkty rozkładu leżą na linii prostej. Przyjmujemy, że korelacja między cechami X i Y jest: słaba, jeżeli umiarkowana, jeżeli silna, jeżeli

Miary siły i liniowości związku korelacyjnego Wskaźnik (stosunek) korelacyjny – eyx gdzie Warunki stosowania: - cecha zależna Y musi być mierzalna, cecha X niekoniecznie, - może być stosowany do oceny związków liniowych i krzywoliniowych. Własności wskaźnika eyx : przyjmuje wartości z przedziału <0;1>, eyx = 0 jeżeli cechy są niezależne korelacyjnie, eyx = 1 jeżeli występuje związek funkcyjny, - Korelację uznajemy za: słabą, gdy umiarkowaną, gdy - silną, gdy

Miara krzywoliniowości Jeżeli 𝑚 𝑦𝑥 ≤0,2 , to związek korelacyjny uznajemy za liniowy i do oceny siły i kierunku korelacji wybieramy współczynnik Pearsona rxy . Jeżeli 𝑚 𝑦𝑥 >0,2 , to związek uznajemy za krzywoliniowy a do oceny siły zależności wybieramy stosunek korelacyjny eyx .

Przykład 2.3. W przykładzie 2.2. wyznaczone zostały parametry rozkładów brzegowych i warunkowych. Na ich podstawie obliczamy miary siły korelacji. Zarówno wartość współczynnika korelacji rxy jak i stosunku korelacyjnego wskazują na silną korelację badanych cech. Ponadto mała wartość miary krzywoliniowości pozwala uznać związek za liniowy. Wskazuje na to również wykres – wydajność pracowników rośnie wraz ze stażem pracy.

3. ANALIZA KORELACJI CECH NIEMIERZALNYCH Współczynnik korelacji rang Spearmana – rs . Warunki stosowania: cechy są mierzalne, ale liczebność zbiorowości jest mała, cechy mogą być niemierzalne, ale ich warianty można uporządkować według jakiegoś kryterium (logicznie ponumerować). Konstrukcja współczynnika – rs : porządkujemy wartości cech X i Y (np. od najmniejszej do największej intensywności ich występowania). 2. wartościom cech przypisujemy ich numery (Rxi oraz Ryi ), pod jakimi występują w uporządkowanym ciągu. Numery te nazywamy rangami wartości. Jeżeli w zbiorowości występują jednostki o tej samej intensywności występowania cechy ( wartości powtarzają się), to tym wszystkim jednostkom przypisujemy średnią arytmetyczną ich indywidualnych rang. obliczamy różnice rang di = Rxi – Ryi , obliczamy współczynnik rang Spearmana

Własności współczynnika rs Własności współczynnika korelacji Spearmana są takie same jak współczynnika korelacji Pearsona , dlatego przyjmiemy takie same granice zmienności przy ocenie, czy korelacja jest słaba, umiarkowana czy silna. Uwaga: Niska wartość współczynnika rs (podobnie jak rxy ) nie oznacza braku korelacji – może bowiem oznaczać, że między cechami zachodzi związek krzywoliniowy.

Przykład 3.1. Z dziennika pewnej grupy studenckiej wybrano losowo 9 dat i zanotowano dni tygodnia (cecha X) oraz liczbę nieobecnych na zajęciach w tym dniu studentów (cecha Y). Czy można na podstawie podanych niżej obserwacji wnioskować, że istnieje korelacja między dniami tygodnia a liczbą nieobecnych studentów? Rpon =1, Rwt= (2+3)/2=2,5 Rśr= (4+5+6)/3=5 Rczw= 7 Rpt=(8+9)/2=8,5 R2=1 R3= (2+3+4)/=3 R4= (5+6)/2=5,5 R5= (7+8)/2=7,5 R6=9 Między dniami tygodnia a absencją na zajęciach zachodzi umiarkowana zależność korelacyjna liniowa. Rjpot rR

Współczynnik Cramera Omówione dotychczas miary korelacji nie mogą być stosowane w przypadku, gdy obie cechy są niemierzalne, a ich wartości (wariantów) nie można logicznie uporządkować. Do badania siły zależności takich cech można wykorzystać m.in. współczynnik Cramera . gdzie: n - liczebność zbiorowości, k - liczba wierszy w tablicy korelacyjnej, l - liczba kolumn w tablicy korelacyjnej, min[(k-1);(l-1)] - mniejsza spośród liczb k-1, l-1 (czyt. chi kwadrat) to wyrażenie postaci a oznaczają liczebności teoretyczne obliczane z wzoru

Warunki stosowania współczynnika Cramera: cechy zbiorowości mogą być dowolne (mierzalne lub niemierzalne) liczebność zbiorowości musi być duża, wyniki muszą być pogrupowane w tablicy korelacyjnej i liczebności wewnątrz tablicy nie powinny być mniejsze niż 5 (nij ≥5), związek między cechami może być liniowy lub krzywoliniowy. Własności wpółczynnika Cramera: wartości współczynnika zawarte są w przedziale <0;1>, im wartośc jest bliższa 1, tym zależność jest silniejsza, jeżeli tablica korelacyjna jest kwadratowa, to maksymalna wartość współczynnika wynosi 1, dla tablicy prostokątnej maksymalna wartość wspóczynnika może być nieco niższa niż 1.

Przykład 3.2. W ankiecie przeprowadzonej wśród pracowników pewnego resortu pytano, czy chcieliby zmienić obecne miejsce pracy. Odpowiedzi w poszczególnych grupach zarobkowych przedstawia tablica korelacyjna. Zbadać korelację między wysokością zarobków a chęcią zmiany pracy. Obliczenia przeprowadzimy w tablicy roboczej.

W tablicy kolorem zielonym zaznaczono liczebności teoretyczne , kolorem różowym wartości wyrażeń . Stąd Brak korelacji między wysokością zarobków a chęcią zmiany pracy.

Funkcję taką nazywamy funkcją regresji, a jej wykres linią regresji. 4. ANALIZA REGRESJI Analiza korelacji cech mówiła o sile zależności korelacyjnej badanych cech zbiorowości. Interesujące byłoby badanie, jak bardzo zmiana wartości cechy niezależnej X wpłynie na zmianę wartości cechy zależnej Y. Do tego należałoby znaleźć matematyczny opis (wzór) zależności między cechami, czyli określić funkcję opisującą tę zależność. Funkcję taką nazywamy funkcją regresji, a jej wykres linią regresji. ,Linia ta może mieć różny kształt a układ punktów na diagramie korelacyjnym może zasugerować, z jakim typem funkcji regresji mamy do czynienia. . Liniowa Wykładnicza Logarytmiczna funkcja regresji funkcja regresji funkcja regresji

Liniowa funkcja regresji. Jeżeli mamy podstawy sądzić, że cechy są skorelowane liniowo, to najlepiej dopasowaną do danych empirycznych funkcję y=ax+b nazywamy liniową funkcją regresji. Współczynniki a i b w tym równaniu wyznaczamy z wzorów: - kowariancja cech X i Y

Przykład 4.1 Do badań wylosowano 6 sklepów branży konfekcyjnej w Łodzi odnotowując ich przeciętny dzienny obrót Y (w tys. zł) oraz powierzchnię X (w m2). Rozkład cechy przedstawia szereg dwuwymiarowy: Z diagramu korelacyjnego sporządzonego w przykładzie 1.1. wnioskujemy, że między dziennym obrotem a powierzchnią sklepu zachodzi dodatnia korelacja liniowa. Współczynniki funkcji regresji są następujące: a wzór funkcji regresji: Na jego podstawie można obliczyć, że dla sklepu o powierzchni 120m2 spodziewany dzienny obrót wynosiłby 30 540 zł. .