Wykład 2 Wrocław, 11 X 2006 Wpływ przekształceń

Slides:



Advertisements
Podobne prezentacje
Excel Narzędzia do analizy regresji
Advertisements

Statystyka w doświadczalnictwie
TEORIA MECHANIZMÓW I MASZYN Metoda planów prędkości i przyspieszeń.
Statystyka Wojciech Jawień
Analiza współzależności zjawisk
Obserwowalność System ciągły System dyskretny
STATYSTYKA WYKŁAD 03 dr Marek Siłuszyk.
Inteligencja Obliczeniowa Perceptrony o dużym marginesie błędu
Skale pomiarowe – BARDZO WAŻNE
Jak mierzyć zróżnicowanie zjawiska? Wykład 4. Miary jednej cechy Miary poziomu Miary dyspersji (zmienności, zróżnicowania, rozproszenia) Miary asymetrii.
Analiza portfeli dwu- oraz trzy-akcyjnych
Jednostki objętości.
Statystyka w doświadczalnictwie
MBank Euro
Skala to stosunek odległości na mapie do odległości w terenie
Obraz Ziemi na mapie Zwykle nie sprawia nam trudności poruszanie się po najbliższej okolicy, gdzie znamy każdy kamień. Problem pojawia się, gdy znajdziemy.
Wykład 4 Rozkład próbkowy dla średniej z rozkładu normalnego
Wykład 14 Liniowa regresja
Wykład 5 Przedziały ufności
Wykład 3 Rozkład próbkowy dla średniej z rozkładu normalnego
Pobieranie próby Populacja generalna: zbiór wyników wszystkich możliwych doświadczeń określonego typu. Próba n-wymiarowa: zbiór n wyników doświadczeń.
Obliczenia Geodezyjne Na Płaszczyźnie Adam Łyszkowicz
Korelacje, regresja liniowa
ANALIZA KORELACJI LINIOWEJ PEARSONA / REGRESJA LINIOWA
OPORNOŚĆ HYDRAULICZNA, CHARAKTERYSTYKA PRZEPŁYWU
Metody Symulacyjne w Telekomunikacji (MEST) Wykład 6/7: Analiza statystyczna wyników symulacyjnych  Dr inż. Halina Tarasiuk
Estymacja przedziałowa i korzystanie z tablic rozkładów statystycznych
Co to są rozkłady normalne?
Korelacja, autokorelacja, kowariancja, trendy
Seminarium 2 Krzywe kalibracyjne – rodzaje, wyznaczanie, obliczanie wyników Równanie regresji liniowej Współczynnik korelacji.
Komputerowe metody przetwarzania obrazów cyfrowych
Ekrany diodowe LED Łukasz Przywarty
Jednostki pola powierzchni.
Miary efektywności/miary dobroci/kryteria jakości działania SSN
Dekompozycja Kalmana systemów niesterowalnych i nieobserwowalnych
Wykład 22 Modele dyskretne obiektów.
Jednostki długości i ich zamiana
Elementy Rachunku Prawdopodobieństwa i Statystyki
Skala i plan.
Wykład 2 Wpływ przekształceń
Ekonometria stosowana
Co to jest dystrybuanta?
METODA ELIMINACJI GAUSSA ASPEKTY NUMERYCZNE
TURBINA.
Wykład 5 Przedziały ufności
Przenoszenie błędów (rachunek błędów) Niech x=(x 1,x 2,...,x n ) będzie n-wymiarową zmienną losową złożoną z niezależnych składników o rozkładach normalnych.
TEST SPRAWDZAJĄCY Z MATEMATYKI dla klasy IV szkoły podstawowej z zakresu FIGURY GEOMETRYCZNE Autor: Justyna Itrych.
WYKŁAD 12 INTERFERENCJA FRAUNHOFERA
Analiza portfeli dwu- oraz trzy-akcyjnych
Estymatory punktowe i przedziałowe
D. Ciołek BADANIA OPERACYJNE – wykład 2
 Dr hab. inż. Kazimierz Duzinkiewicz, Katedra Inżynierii Systemów Sterowania 1 Metody sztucznej inteligencji – Technologie rozmyte i neuronoweSystemy.
Zastosowanie przekształceń morfologicznych:
Model trendu liniowego
Korelacje dwóch zmiennych. Korelacje Kowariancja.
Ćwiczenia Zarządzanie Ryzykiem Renata Karkowska, ćwiczenia „Zarządzanie ryzykiem” 1.
Rozkłady statystyk z próby dr Marta Marszałek Zakład Statystyki Stosowanej Instytut Statystyki i Demografii Kolegium.
STATYSTYKA – kurs podstawowy wykład 13 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.
Halina Klimczak Katedra Geodezji i Fotogrametrii Akademia Rolnicza we Wrocławiu WYKŁAD 2 ZMIENNE GRAFICZNE SKALA CIĄGŁA I SKOKOWA.
Modele nieliniowe sprowadzane do liniowych
Treść dzisiejszego wykładu l Analiza wrażliwości –zmiana wartości współczynników funkcji celu, –zmiana wartości prawych stron ograniczeń. l Podejścia do.
STATYSTYKA – kurs podstawowy wykład 11
Jak mierzyć zróżnicowanie zjawiska?
Rozkład z próby Jacek Szanduła.
Perceptrony o dużym marginesie błędu
Analiza niepewności pomiarów Zagadnienia statystyki matematycznej
Perceptrony o dużym marginesie błędu
ROZKŁAD NORMALNY 11 października 2017.
Korelacja i regresja liniowa
Zapis prezentacji:

Wykład 2 Wrocław, 11 X 2006 Wpływ przekształceń Co się stanie ze średnią i odchyleniem standardowym gdy zmienimy jednostki ? stopnie Celsiusza  stopnie Fahrenheita dolary  1,000 dolarów wartość faktyczna  odległość od minimum cm : mm, in, nm, m, ft; dolary : euro

Zmiana wartości wynikająca ze zmiany jednostek dana jest zwykle funkcją liniową: y’ = ay + c Przykłady: y’ = 1.8 y + 32 y’ = 1/1000 y ( + 0) y’ = (1)y - ymin

Liniowa transformacja zmiennych, cd. Funkcja liniowa nie zmienia w zasadniczy sposób kształtu histogramu. Może go rozszerzyć (|a| >1), ścieśnić (|a|<1), przesunąć (c<>0) i obrócić (a<0).

Wpływ stałej (odejmujemy 20) Dev. y’ Dev 25 -1 5 26 6 28 2 8 Średnia

Liniowa transformacja zmiennych, cd. Średnia zmienia się tak jak y. Mamy: y’ = ay + c Odchylenie standardowe s zmienia się tylko w zależności od współczynnika a. Stała c nie ma wpływu na odchylenie standardowe, ponieważ zależy ono jedynie od odchyleń od średniej. Mamy: s’ = |a| s

Liniowa transformacja zmiennych, cd. Wariancja próbkowa Wariancja jest kwadratem SD. Mamy: s2’ = a2s2 Przykład: Y- temperatura w F: = 98.6, s = 0.9, s2 = 0.81 Pytanie 1: Oblicz średnią, odchylenie standardowe i wariancję dla tych samych danych wyrażonych w stopniach Celsjusza.

Odpowiedź

Standardyzacja Pytanie 2: Jakich wyników należy oczekiwać, gdy dane przekształcimy w następujący sposób Y' = (Y- )/s =(Y-98.6)/0.9 ? Jest to transformacja liniowa: Y' = 1/s Y - y/s. Odpowiedź:

Liniowa transformacja zmiennych: inne statystyki Funkcja liniowa zmienia: medianę i kwartyle tak jak średnią, rozstęp i IQR tak jak odchylenie standardowe.

Transformacje nieliniowe Funkcje nieliniowe (np. logarytm) zmieniają kształt histogramu i na ogół nie ma dla nich prostych formuł umożliwiających obliczenie nowej średniej i nowego odchylenia standardowego. Parametry te liczymy z definicji korzystając z „nowego’’ zbioru danych. Przykład : dla Y’=log(Y) na ogóły’ ≠ logy Z medianą i kwartylami jest lepiej... Czasami używamy funkcji nieliniowych, aby przekształcić skośne dane w bardziej symetryczne.

Wnioskowanie statystyczne Próba a populacja Zbiór, z którego losujemy próbę i który chcemy opisać. Czasami rzeczywista, czasami abstrakcyjna (np. „nieskończenie duża próba”) . Próba: Podzbiór populacji. Próba powinna być reprezentatywna dla populacji. Wnioskowanie statystyczne: Wnioskowanie o populacji w oparciu o próbę.

Populacja Próba ,  Grupa wykładowa 10 losowo wybranych studentów Wszyscy pacjenci biorący Prozac 30 pacjentów biorących Prozac ``wszystkie’’ rzuty kostkami 25 rzutów kostką Wszystkie owocówki ze śmietnika, albo Wszystkie owocówki w okolicy Owocówki złapane na śmietniku Populacja   Próba y s Próbkowanie Wnioskowanie Parametry : ,  Statystyki

Parametry populacji μ = średnia w populacji, μ=EY, wartość oczekiwana zmiennej Y σ = odchylenie standardowe w populacji, σ =(Var Y)1/2, ...i inne. Statystyki z próby są estymatorami, służą do oceny parametrów całej populacji.

Przykład Grupy krwi u 3696 osób żyjących w Anglii. Około 44% ludzi w próbie ma grupę krwi A. A w Anglii?? Czy nie było systematycznego błędu przy próbkowaniu? Czy rozmiar próby był dość duży? Grupa krwi Liczność A 1,634 B 327 AB 119 O 1616 suma 3696

Możliwe błędy przy próbkowaniu: Próba złożona z przyjaciół i pracowników może nie być reprezentatywna. Mimo tego... Grupy krwi mogą być reprezentatywne. Ale już... Pomiary ciśnienia nie byłyby reprezentatywne (ciśnienie na ogół wzrasta z wiekiem).

Populacja a próba Średnia z próbyy na ogół różni się od wartości oczekiwanej μ=EY (średniej w populacji), ale w miarę wzrostu rozmiaru próby różnica między tymi wielkościami zwykle dąży do zera (Mocne Prawo Wielkich Liczb). Średnia z próby jest estymatorem wartości oczekiwanej. Podobnie próbkowe odchylenie standardowe s i wariancja próbkowa s2 są estymatorami odpowiednich parametrów w populacji: σ i σ2=Var Y.

Przykład Rozmiar populacji=50, średnia w populacji =26.48 Dane: 25.5 17.8 36.7 29.8 40.7 26.0 7.7 27.7 10.3 22.3 45.4 43.4 20.2 42.2 44.5 1.6 5.7 48.6 23.9 27.2 17.0 19.5 47.7 3.9 39.3 9.2 30.7 18.9 25.7 32.8 16.8 11.7 13.9 4.9 49.4 30.5 20.7 38.1 25.6 40.7 45.0 30.8 11.3 34.0 49.7 21.3 3.5 28.7 19.7 35.6 stopniowo powiększamy próbę losową do rozmiarów n=10, 20, 30, 40 otrzymana średnia z próby: 23.5 (dla n=10), 27.3 (n=20), 26.7 (n=30), 26.4 (n=40)

Histogram z populacji a histogram próbkowy Dane dyskretne (klasy) Oznaczamy: pi=frakcja (częstość) osobników w całej populacji w i-tej kategorii. pi można ustalić w oparciu o histogram skonstruowany dla całej populacji. Oznaczamy: = estymator obliczony w oparciu o histogram z próby (zaobserwowana częstość w danej kategorii).

Przykład Rozmiar populacji =10000. 5 klas o tej samej częstości pi= (?). W tabeli tylko kategorie 1. i 5. n 10 0.1 0.3 20 0.35 40 0.2 0.25 80 0.15 0.225 160 0.1625 0.1875 320 0.1781 0.1938

n=10

Próbkowanie, cd. Prosta próba losowa: Każdy osobnik z populacji może być wybrany z tym samym prawdopodobieństwem. Wybory poszczególnych osobników są od siebie niezależne.

Jak wybrać prostą próbę losową: Mechanizm losujący, np.: Przyznajemy numer każdemu osobnikowi Zapisujemy numery na kulach Mieszamy kule w urnie Losujemy kule=numery=osobników, tyle razy, ile wynosi rozmiar próby Do losowania możemy również użyć komputera lub gotowej tablicy liczb (numerów) losowych (zob. dalej). Gdy rozmiar populacji nie jest ustalony lub nie mamy dostępu do wszystkich osobników, zadanie jest dużo trudniejsze.

Błędy w póbkowaniu, cd, Przykład 1 (Ochotnicy) Dziennikarka Ann Landers spytała swoich czytelników „Gdybyście mogli zacząć je-szcze raz: czy mielibyście znowu dzieci?” Odpisało prawie 10,000 czytelników i 70% powiedziało: Nie! Populacja: wszyscy rodzice w USA

Przykład 1 (Ochotnicy) cd. Próba: pewna część populacji, która zdecydowała się odpisać, n=10,000. Czasopismo Newsday przeprowadziło „statystycznie zaplanowaną” ankietę, w której 91% z 1,373 przepytanych rodziców odpowiedziało: Tak! Ochotnicy: bardzo zła reprezentatywność (badanie bezwartościowe).

Przykład 2 Przewidywanie wyników wyborów prezydenckich w USA, 1936: Literary Digest wysłało kwestionariusze do 10 milionów ludzi (25% głosujących) Odpowiedziało 2.4 miliona: Przewidywanie: Landon 57%, Roosevelt 43% Wynik wyborów: Roosevelt 62%, Landon 38% Uwagi: F.D. Roosevelt, Partia Demokratyczna, prezydent w latach 1933-1945; Wielki Kryzys: 1929-1933

Przyczyny błędu Literary Digest: Złe (dyskryminujące) próbkowanie Użyto książek telefonicznych, list członkowskich klubów, listy zamówień pocztowych, listy właścicieli pojazdów Brak odpowiedzi Tylko 24% odpowiedziało (niemal wyłącznie Republikanie) Uwaga: George Gallup przewidział poprawnie na podstawie reprezentatywnej próbki 50 000 osób.

Obciążenie w próbkowaniu Obciążenie w próbkowaniu występuje, gdy mamy do czynienia z systematycznym błędem faworyzującym pewną część populacji. W przypadku takiego obciążenia nie pomoże nawet duży rozmiar próby. Losowy wybór elementów do próby zwykle eliminuje takie obciążenie.

Warianty losowego wyboru: Stratyfikacja Dzielimy populację na pod-populacje podobnych jednostek (warstwy) i oddzielnie próbkujemy w każdej warstwie. Przykłady warstw: studenci & studentki grupy zawodowe regiony geograficzne

Podstawowe metody estymacji (patrz tablica) Metoda momentów Metoda największej wiarogodności