Statystyka Wykłady dla II rok Geoinformacji rok akademicki 2012/2013 Wykłady 1 i 2: Wprowadzenie do statystyki
Program wykładu Wykładowca Wprowadzenie do problematyki hipotetyczno-dedukcyjna metoda wyjaśniania zadania statystyki Zakres tematyczny wykładów Literatura Termin i forma egzaminu
Wykładowca Dr hab. Alfred Stach Instytut Geoekologii i Geoinformacji, Wydział Nauk Geograficznych i Geologicznych Specjalność: geografia fizyczna, geomorfologia, hydrologia, GIS, geostatystyka, modelowanie matematyczne Collegium Geographicum, IIp, pokój 216, tel. 0-61-829-6179, e-mail: frdstach@amu.edu.pl
Zasady poznawania otaczającej rzeczywistości NAUKOWE POZNAWANIE ŚWIATA Wyjaśnianie Obserwowane zjawiska Teoria Testowanie (walidacja)
Faktyczne podstawy tworzenia wyjaśnień rzeczywistości
Co odróżnia hipotezy naukowe od innych?
Naukowa metodologia poznawania rzeczywistości
Metoda naukowa poznawania rzeczywistości
Testowanie hipotezy
Testowanie hipotezy: „palenie papierosów zwiększa ryzyko raka płuc”
Na czym opiera się nasza wiedza o otaczającym środowisku fizycznym i społecznym? I. Pomiar + Teoria
Na czym opiera się nasza wiedza o otaczającym środowisku fizycznym i społecznym? II. Pomiar + ???
Przykład z gazet – badania opinii społecznej Aby poznać preferencje dorosłych (ok. 29 mln.) Polaków z dokładnością ± 3% ankietuje się zazwyczaj ok. 1300 osób (próbka 0,000045). Próbka musi być reprezentatywna tzn. zachowywać proporcje głównych parametrów całej populacji: strukturę płci, strukturę wiekową, strukturę wykształcenia, strukturę zawodową, strukturę zamieszkania.
Przykład w skali Polski: suma opadów atmosferycz-nych w sierpniu 1975 Dane źródłowe z 2659 stacji. DUŻO, CZY MAŁO?
Przykład w skali Polski: suma opadów atmosferycz-nych w sierpniu 1975 roku. Dane wyjściowe: 2659 deszczomierzy Hellmanna powierzchnia zbiorcza deszczomierza Hellmanna: 200 cm2 powierzchnia Polski: 312 685 km2 Obliczenia: Powierzchnia pomiaru = 2659 200 cm2 = 531800 cm2 = 53,2 m2 = 0.0000532 km2 Powierzchnia pomiarowa w stosunku do powierzchni Polski 1 : 0,000 000 001 701. To tak jakby się chciało poznać opinię społeczną w Polsce na podstawie ankietowania 0,0223 obywatela Dane źródłowe z 2659 stacji. DUŻO, CZY MAŁO?
A MOŻE TO JEDNAK WYSTARCZAJĄCO DUŻO DANYCH? Mechanizm powstawania opadów w Polsce: frontalne (30 – 60 tys. km2), konwekcyjne (ok. 5 km2), i dodatkowo wpływ rzeźby terenu. Przykład w skali Polski: suma opadów atmosferycz-nych w sierpniu 1980 roku. Obliczenia: Powierzchnia przypadająca na 1 deszczomierz: 312 685 : 2659 = 117,6 km2 średnia odległość między deszczomierzami: 117,60,5 = 10,84 km średni promień opadowej komórki konwekcyjnej: (5 : )0,5 = 1,26 km Dane źródłowe z 2659 stacji. DUŻO, CZY MAŁO?
Przykład w skali Polski: suma opadów atmosfe-rycznych w sierpniu 1975 roku
Problem w skali globalnej
Globalne ocieplenie – dane źródłowe Lokalizacja stacji meteo. z danymi średniej temperatury powietrza Lokalizacja stacji meteo. z danymi maks. temperatury powietrza
Decyzje ekonomiczne – eksploatacja ropy naftowej na Morzu Północnym Rdzenie wiertnicze: 0,000 000 001 Wiercenia: 0,000 000 007 Pomiary geofizyczne: 0,000 001 Koszt budowy i instalacji platformy wiertniczej: ok. 2 mld. U$ Informacje bę-dące podstawą decyzji o wyda-niu 2 mld. U$:
Podstawy klasycznej statystyki
Indukcyjne poznawanie rzeczywistości – rola statystyki
Historia statystyki „Statystyka ma długą prehistorię, ale krótką historię” (C. Radhakrishna Rao) Najdawniejszy zapis statystyczny: karby na kościach, kamieniu i innych materiałach służące do prowadzenia rachunku swego bydła i innego dobytku Pierwsze spisy ludności przeprowadzano w Chinach ok. 2000 lat p.n.e Za czasów dynastii Czou (1122 – 256 p.n.e.) ustanowiono oficjalne stanowisko odpowiedzialnego za prace statystyczne zwane „szih-su” (księgowy)
Historia statystyki Termin statystyka ma źródło w łacińskim słowie „status”, co oznacza „państwo”. Został on użyty po raz pierwszy w połowie XVIII przez Niemca Gottfrieda Achenwalla dla określenia „gromadzenia, przetwarzania i wykorzystywania danych przez państwo” W 1800 roku Francja jako pierwsze państwo na świecie tworzy Centralny Urząd Statystyczny W 1834 roku powstało w Londynie Królewskie Towarzystwo Statystyczne (Royal Statistical Society). Wtedy statystykę uważano za „fakty odnoszące się do ludzi, możliwe do przedstawienia w postaci liczb, w wystarczająco zwielokrotnionej ilości, sygnalizujące prawa ogólne”
Historia statystyki I Międzynarodowy Kongres Statystyczny w 1854 roku w Brukseli – prezesem został belgijski matematyk Adolphe Quetlet (1796-1874) W 1885 powstało międzynarodowe stowarzyszenie statystyków pod nazwą Międzynarodowego Instytutu Statystycznego (International Statistical Institute). Siedzibą ISI jest Haga w Holandii W Polsce niepodległej w 1918 powołano Główny Urząd Statystycznych (GUS). GUS powstał z inicjatywy Ludwika Krzywickiego, jednego z najwybitniejszych socjologów swoich czasów. Działalność GUS była zawieszona w okresie drugiej wojny światowej, i wznowiona w 1945 roku.
Definicja - Wikipedia Statystyka – nauka, której przedmiotem zainteresowania są metody pozyskiwania i prezentacji, a przede wszystkim analizy danych opisujących zjawiska, w tym masowe. Duża część nauki zajmuje się obserwacją otaczającego nas świata lub też posługuje się eksperymentem dla potwierdzenia swoich teorii. Takie badanie przebiega zazwyczaj według schematu: zebranie dużej ilości danych, ich analiza i interpretacja. Badaczowi potrzebny jest wtedy zestaw narzędzi - sprawdzonych metod, które umożliwią mu operowanie na dużych zbiorach danych. Tworzeniem i rozwijaniem takich użytecznych narzędzi zajmuje się właśnie statystyka.
Opinie o statystyce Mark Twain „There are three kinds of lies: lies, damned lies, and statistics” Mark Twain „Sometimes it is useful to know how large your zero is.” Author unknown „Nic nie wymaga większej dokładności przy roztrząsaniu spraw ludzkich jak ścisłe rozróżnienie, co jest wynikiem przypadku, a co działaniem przyczyn” David Hume Esej: „Powstanie i postęp sztuk i nauk” „Dane należy torturować tak długo, aż zaczną zeznawać” Znalezione w sieci „It is easy to lie with statistics. It is hard to tell the truth without statistics” Andrejs Dunkels „ …technology tends to overwhelm common sense.” D. A. Freedman
Problem „daty urodzin” Jakie jest prawdopodobieństwo że na sali są co najmniej dwie osoby urodzone tego samego dnia roku?
Problem „daty urodzin” Jakie jest prawdopodobieństwo że na sali są co najmniej dwie osoby urodzone tego samego dnia roku?
Główne funkcje statystyki Opisywanie/podsumowywanie/ tabelaryzowanie danych, Testowanie hipotez (przewidywań) na temat danych Przeprowadzanie eksploracji danych w poszukiwaniu struktury/układów/ czynników/skupień
Opisywanie/podsumowywanie/ tabelaryzowanie danych Podsumowanie/rysowanie kształt rozkładu zmiennych ciągłych, Tabelaryzowanie/ilustrowanie graficzne danych jakościowych (takich jak płeć, zawód) oraz wyznaczanie liczności, procentów itp., Przeprowadzanie eksploracji/ podsumowywanie szeregów czasowych
Testowanie hipotez (przewidywań) na temat danych Kształtu (lub dopasowania) rozkładu, Różnic pomiędzy grupami/próbami, Różnic pomiędzy zmiennymi, Zależności (relacji) między zmiennymi, Różnic w relacjach pomiędzy zmiennymi w różnych grupach
Przeprowadzanie eksploracji danych w poszukiwaniu struktury/układów/ czynników/skupień Czynników lub wymiarów wśród wielu zmiennych ciągłych, Skupień lub naturalnych grup zmiennych lub przypadków, Wzorców lub trendów zachodzących w czasie, Związków w tablicach wielodzielczych. Związków pomiędzy zmiennymi niezależnymi (objaśniającymi) a zmiennymi zależnymi, określającymi przynależność do grup (kategorii).
Program wykładu Wykładowca Wprowadzenie do problematyki hipotetyczno-dedukcyjna metoda wyjaśniania zadania statystyki Zakres tematyczny wykładów Literatura Termin i forma egzaminu
Ćwiczenia ze statystyki w roku akademickim 2012/2013: zakres tematyczny zajęć Przygotowanie danych do analiz statystycznych Podstawy grafiki statystycznej Statystyki opisowe Testowanie hipotez – metody parametryczne; analiza wariancji (ANOVA) Testowanie hipotez – metody nieparametryczne Tabele dwudzielcze i wielodzielcze (kontyngencji) – testowanie istotności proporcji Analiza korelacji i regresji (liniowa, wielokrotna liniowa, proste warianty regresji nieliniowych, regresja logistyczna) Wieloczynnikowa analiza wariancji (MANOVA) Metody wielowymiarowe: analiza składowych głównych, analiza skupień (metody hierarchiczne i k-średnich).
Zagadnienia dodatkowe na wykładach Podstawy teorii prawdopodobieństwa; zmienne losowe, rozkłady losowe Pobieranie próby / Planowanie eksperymentu
Statystyka – strona domowa wykładów i ćwiczeń: http://www.geoinfo.amu.edu.pl/zajecia/stat/index.html
Podręczniki
Podręczniki
Podręczniki
Podręczniki
Encyklopedie i słowniki
Statystyka jest łatwa ?
Internetowy podręcznik statystyki: http://www. statsoft
R – literatura
R – literatura po polsku
Internet – AniWiki: http://animation.yihui.name/
Program wykładu Wykładowca Wprowadzenie do problematyki hipotetyczno-dedukcyjna metoda wyjaśniania zadania statystyki Zakres tematyczny wykładów Literatura Termin i forma zaliczenia