Fundamentals of Data Analysis Lecture 1 Introduction

Slides:

Advertisements

Podobne prezentacje

Regresja i korelacja materiały dydaktyczne.

Advertisements

Badania statystyczne Wykłady 1-2 © Leszek Smolarek.

Excel Narzędzia do analizy regresji

ESTYMACJA PRZEDZIAŁOWA

Statystyka Wojciech Jawień

Statystyczna kontrola jakości badań laboratoryjnych wg: W.Gernand Podstawy kontroli jakości badań laboratoryjnych.

MIĘDZYNARODOWE UNORMOWANIA WYRAŻANIA NIEPEWNOŚCI POMIAROWYCH

BUDOWA MODELU EKONOMETRYCZNEGO

Statystyka w doświadczalnictwie

Podstawowe pojęcia prognozowania i symulacji na podstawie modeli ekonometrycznych Przewidywaniem nazywać będziemy wnioskowanie o zdarzeniach nieznanych.

Jakość sieci geodezyjnych. Pomiary wykonane z największą starannością, nie dostarczają nam prawdziwej wartości mierzonej wielkości, lecz są zwykle obarczone.

Analiza korelacji.

Niepewności przypadkowe

Wykład 14 Liniowa regresja

Metody Przetwarzania Danych Meteorologicznych Wykład 4

Program przedmiotu “Metody statystyczne w chemii”

Modele (hipotezy) zagnieżdżone

Rozkład normalny Cecha posiada rozkład normalny jeśli na jej wielkość ma wpływ wiele niezależnych czynników, a wpływ każdego z nich nie jest zbyt duży.

Wykład 4. Rozkłady teoretyczne

Metody Symulacyjne w Telekomunikacji (MEST) Wykład 4: Generowanie zdarzeń Dr inż. Halina Tarasiuk p. 337, tnt.tele.pw.edu.pl.

Metody Symulacyjne w Telekomunikacji (MEST) Wykład 6/7: Analiza statystyczna wyników symulacyjnych Dr inż. Halina Tarasiuk

Doświadczalnictwo.

Średnie i miary zmienności

Jednoczynnikowa analiza wariancji (ANOVA)

Hipotezy statystyczne

dr hab. Ryszard Walkowiak prof. nadzw.

BADANIE STATYSTYCZNE Badanie statystyczne to proces pozyskiwania danych na temat rozkładu cechy statystycznej w populacji. Badanie może mieć charakter:

Analiza wariancji jednoczynnikowa.

Irena Woroniecka EKONOMIA MENEDŻERSKA - dodatek do W2

Elementy Rachunku Prawdopodobieństwa i Statystyki

Hipotezy statystyczne

NIEPEWNOŚĆ POMIARU Politechnika Łódzka

Finanse 2009/2010 dr Grzegorz Szafrański pokój B106 Termin konsultacji poniedziałek:

Elementy Rachunku Prawdopodobieństwa i Statystyki

Kilka wybranych uzupelnień

Błędy i niepewności pomiarowe II

Planowanie badań i analiza wyników

Henryk Rusinowski, Marcin Plis

Seminarium licencjackie Beata Kapuścińska

Testowanie hipotez statystycznych

Przedmiot: Ekonometria Temat: Szeregi czasowe. Dekompozycja szeregów

Dopasowanie rozkładów

Wnioskowanie statystyczne

Statystyka medyczna Piotr Kozłowski

Weryfikacja hipotez statystycznych

EKSPERYMENTY I OBSERWACJE NA LEKCJACH BIOLOGII I PRZYRODY

Weryfikacja hipotez statystycznych dr hab. Mieczysław Kowerski

Model ekonometryczny Jacek Szanduła.

Monte Carlo, bootstrap, jacknife. 2 Literatura Bruce Hansen (2012 +) Econometrics, ze strony internetowej :

Przeprowadzenie badań niewyczerpujących, (częściowych – prowadzonych na podstawie próby losowej), nie daje podstaw do formułowania stanowczych stwierdzeń.

Testy nieparametryczne – testy zgodności. Nieparametryczne testy istotności dzielimy na trzy zasadnicze grupy: testy zgodności, testy niezależności oraz.

STATYSTYKA – kurs podstawowy wykład 7 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.

Rozkłady statystyk z próby dr Marta Marszałek Zakład Statystyki Stosowanej Instytut Statystyki i Demografii Kolegium.

Weryfikacja hipotez statystycznych „Człowiek – najlepsza inwestycja”

WYKŁAD Teoria błędów Katedra Geodezji im. K. Weigla ul. Poznańska 2

Fundamentals of Data Analysis Lecture 12 Approximation, interpolation and extrapolation.

Metody Analizy Danych Doświadczalnych Wykład 9 ”Estymacja parametryczna”

Modele nieliniowe sprowadzane do liniowych

STATYSTYKA – kurs podstawowy wykład 11

Estymacja parametryczna dr Marta Marszałek Zakład Statystyki Stosowanej Instytut Statystyki i Demografii Kolegium Analiz.

Niepewności pomiarów. Błąd pomiaru - różnica między wynikiem pomiaru a wartością mierzonej wielkości fizycznej. Bywa też nazywany błędem bezwzględnym.

Testy nieparametryczne

Błędy i niepewności pomiarowe II

Statystyka matematyczna

Statystyka matematyczna

Jednorównaniowy model regresji liniowej

Analiza niepewności pomiarów Zagadnienia statystyki matematycznej

Analiza współzależności zjawisk

Monte Carlo, bootstrap, jacknife

Korelacja i regresja liniowa

Zapis prezentacji:

Fundamentals of Data Analysis Lecture 1 Introduction dr inż. Tomasz W. Wojtatowicz Instytut Fizyki PŁ, Budynek B15 pokój 2 e-mail: tomasz.wojtatowicz@p.lodz.pl

LECTURE 1. Deduction and induction. Organization of the experimental research. Research planning. 2. Error theory. Kinds of error. Uncertainty class. Applications of the Error theory. 3. Selected topics from the probability and statistics. Statistical distributions applied in physics and data analysis. Test for nonrandomness. 4. Statistical hypotheses. Parameters of the distribution. Parametric estimation - most important estimators. Selected statistical programmes. 5. Statistical hypothesis testing. Parametrical and non-parametrical tests. 6. Managing data sets. Outliers. The rule of the huge error. The Dixon, Grubbs, Youden and Cochran Tests

LECTURE 7. Correlation and regression. Two-variable case. Correlation and regression for more than two variables. 8. Methods of the parametrical estimation. The Least Square Method and Maximum Likelihood Method. 9. Improving measurement precision. Application of the Fourier Transform. Smoothing. Calculations. Verification of the algebraic. Extrapolation and interpolation. Commercial mathematical programms. 10. Presenting data. Charts and graphs. Selected graphical and presentation applications. Scientific publication preparing.

TUTORIALS 1. Verification of the parametric hypothesis 2. Verification of the non-parametric hypothesis 3. Correlation and regression 4. Least square method 5. Extrapolation and interpolation

Topics for discussion Jakie znaczenie mają obecnie badania doświadczalne ? Komputer w życiu naukowca. Znaczenie internetu w pracy naukowca

Program wykładów 4. TESTOWANIE HIPOTEZ STATYSTYCZNYCH 4.1. Wprowadzenie 4.2. Testy parametryczne 4.2.1. Test zgodności średniej próby ze średnią populacji (Test t Studenta) 4.2.2. Test dla wariancji populacji generalnej (Test chi-kwadrat) 4.2.3. Test dla dwóch średnich wartości prób 4.2.4. Test z (zgodności średniej próby ze średnią populacji) 4.2.5. Test Bartletta 4.3. Testy nieparametryczne 4.3.1. Test zgodności chi-kwadrat 4.3.2. Test zgodności l Kołmogorowa 4.3.3. Test Kołmogorowa-Lillieforsa 4.3.4. Test Shapiro-Wilka 4.3.5. Test niezależności chi-kwadrat 4.3.6. Test Wilcoxona 2. ELEMENTY STATYSTYKI 2.1. Pojęcia podstawowe 2.2. Wybrane rozkłady prawdopodobieństwa 2.2.1. Rozkład dwumianowy 2.2.2. Rozkład Poissona 2.2.3. Rozkład Gamma 2.2.4. Rozkład Weibulla 2.2.5. Rozkład Erlanga 2.2.6. Rozkład Normalny 2.2.7. Rozkład Chi-kwadrat 2.2.8. Rozkład T Studenta 2.2.9. Rozkład F Snedecora 2.3. Hipotezy statystyczne 2.4. Estymacja i estymatory 6. TEORIA BŁĘDÓW I ZARZĄDZANIE ZBIORAMI DANYCH 6.1.1. Rodzaje błędów 6.1.2. Klasa niedokładności 6.1.3. Wnioskowanie w teorii błędów 6.1.4. Praktyczne obliczanie błędów 6.1.5. Funkcja błędu 6.1.6. Błędy kwantowania 6.2.1. Obserwacje nietypowe 6.2.2. Prawo Grubego Błędu 6.2.3. Kryterium Chauveneta 6.2.4. Test Dixona 6.2.5. Test Grubbsa 6.2.6. Test Youdena 6.2.7. Test Cochrana 6.2.8. Test Hartleya 3. GENEROWANIE LICZB LOSOWYCH 3.1. Liczby losowe 3.2. Tablice liczb losowych 3.3. Generatory liczb losowych o równomiernym rozkładzie prawdopodobieństwa 3.4. Generatory liczb losowych o dowolnych rozkładach prawdopodobieństwa 3.5. Testy na losowość (nieprzypadkowość) 3.5.1. Serie 3.5.2. Trendy i nachylenia 3.5.3. Średni kwadrat kolejnych różnic 5. ANALIZA WARIANCJI 5.1. Wprowadzenie 5.2. Eksperyment jednoczynnikowy 5.2.1. Hipotezy zerowe i alternatywne w jednoczynnikowej analizie wariancji 5.2.2. Weryfikacja hipotezy o równości wartości przeciętnych w przypadku klasyfikacji jednoczynnikowej 5.2.3. ANOVA dla dwóch prób 5.3. Weryfikacja hipotez dotyczących wartości przeciętnych w przypadku klasyfikacji podwójnej 5.4. Schemat kwadratu łacińskiego LQ-.R (N=1) III 10. INNE ZASTOSOWANIA ANALIZY DANYCH 10.1. Ekonofizyka 10.2. Socjologia 8. KORELACJA I REGRESJA ORAZ METODY ESTYMACJI PARAMETRYCZNEJ 8.1. Pojęcia podstawowe 8.2. Diagram korelacyjny i tablica korelacyjna 8.3. Korelacja liniowa 8.4. Regresja dla dwóch zmiennych 8.5. Korelacja i regresja dla wielu zmiennych 8.6. Krzywe regresji 8.7. Matematyczny model zjawiska 8.8. Metoda Najmniejszych Kwadratów 8.9. Metoda Największej Wiarygodności 9. ZAPISYWANIE I PREZENTACJA WYNIKÓW POMIARÓW 9.1. Zapisywanie wyników eksperymentu 9.2. Wagi statystyczne wyników pomiarów 9.3. Arkusze kalkulacyjne w analizie danych 9.4. Interpolacja i ekstrapolacja. 9.5. Graficzna prezentacja wyników 9.6. Przygotowywanie publikacji naukowej

Books W. Krysicki i in., Rachunek prawdopodobieństwa i statystyka matematyczna w zadaniach, cz. II, Statystyka matematyczna, PWN, Warszawa 1986. G. L. Squires, Praktyczna fizyka, PWN, Warszawa 1992. H. Abramowicz, Jak analizować wyniki pomiarów?, PWN, Warszawa 1992. E. Bright Wilson jr., Wstęp do badań naukowych, PWN, Warszawa, 1968. S. Brandt, Analiza danych, PWN, Warszawa, 1998. L. Gajek, M. Kałuszka, Wnioskowanie statystyczne. Modele i metody. WNT, Warszawa 1994.

Measurement Measurement is the process of assigning numbers to objects or observations; In other words, some form of quantification expressed in numbers Measurement is the process of comparing objects with standards Measuring abstract concepts like ‘happiness’ is much more difficult than measuring physical objects, i.e., abstract concepts and non-standardised measurement tools lead to less confidence about accuracy of measurement

Research Methodology 1. Selection and formulation of research problem 2. Research design and plan 3. Experimental designs 4. Sampling and sampling strategy or plan 5. Measurement and scaling techniques 6. Data collection methods and techniques 7. Testing of hypotheses 8. Statistical techniques for processing & analysis of data 9. Analysis, interpretation and drawing inferences 10. Report writing

Ethic of research Plagiarism, claiming credit for results of others, misreport sources or invent results, data with questionable accuracy, concealing objections that cannot be rebutted, caricaturing or distorting opposing views, destroy or conceal sources and data important for those who follow

Research methodology and design Ważne wskazówki co do projektowania poprawnego eksperymentu: Powtarzalność (Repeatability) - oznacza zastosowanie oddziaływania dwa i więcej razy w celu doświadczalnego oszacowania błędów oraz poprawy precyzji pomiaru (obserwacji) skutków tego oddziaływania. Ilość koniecznych powtórzeń zależy od wielkości różnic (odchyłek) które chcemy wykryć oraz zmienności wielkości, którą chcemy zbadać. Pamiętając o tych obu rzeczach na początku eksperymentu zmniejszamy ilość stresów towarzyszących badaniom. Przypadkowość (Randomness) - jest to przyporządkowanie oddziaływań do przyrządów badawczych w taki sposób, że wszystkie mają jednakową szansę otrzymania oddziaływania.

Research methodology and design Ważne wskazówki co do projektowania poprawnego eksperymentu: Lokalna kontrola (Local control) - ma na celu zmniejszenie błędów pomiarowych, na przykład: pomiary grupujemy w bloki i po wykonaniu każdego bloku analizujemy jego wyniki.

Research methodology and design Uniwersalna procedura przeprowadzenia badań naukowych jest trudna do zdefiniowania, jednak zwykle wymienia się następujące elementy: 1. Sformułowanie hipotezy - próbne, nieobowiązujące rozwiązanie, wyjaśnienie. 2. Zaplanowanie eksperymentu obiektywnie testującego tę hipotezę. 3. Skrupulatne wykonanie obserwacji i zebranie danych doświadczalnych podczas eksperymentu. 4. Interpretacja wyników eksperymentu - rozważenie otrzymanych danych w kontekście innych znanych faktów i danych mogących potwierdzić lub zaprzeczyć naszym wynikom i postawionej na wstępie hipotezie. 5. Zakres stosowalności wniosków - oczywiście powinien być jak najszerszy. Eksperyment powtarzalny w czasie i przestrzeni zwiększa zakres stosowalności wniosków wypływających z niego. Inną drogą poszerzenia zakresu jest eksperyment współczynnikowy, w którym efekty działania jednego z czynników badane są w funkcji zmieniających się pozostałych możliwych czynników. 6. Obliczenie wielkości błędów pomiarowych - w każdym eksperymencie istnieje pewien element niepewności co do ważności uzyskanych wyników. Doświadczenie powinno być tak zaprojektowane, aby można było oszacować (obliczyć) wielkość błędu.

Research methodology and design Można także określić najważniejsze kroki eksperymentatora: 1. Zdefiniowanie problemu - pierwszym krokiem na drodze do rozwiązania jest prawidłowe (przejrzyste, jasne) sformułowanie problemu. Jeśli nie możemy zdefiniować problemu mamy małą szansę na rozwiązanie tego problemu. Jeżeli problem jest zrozumiały, powinniśmy potrafić postawić pytania, na które odpowiedź przybliży nas do rozwiązania. 2. Zestawienie celów - może być w formie pytań na które należy odpowiedzieć, hipotez które należy przetestować lub zjawisk które należy zbadać. Cele te powinny być dobrze sprecyzowane, bowiem tylko takie postawienie celów umożliwia eksperymentatorowi prawidłowe i efektywne zaprojektowanie doświadczenia. Jeżeli mamy więcej niż jeden cel, cele powinny być uporządkowane pod względem ważności, i w takiej kolejności uwzględnione w projekcie. Przy określaniu celów nie należy być ani zbyt ambitnym ani zbyt ostrożnym. 3. Wybór oddziaływań - sukces eksperymentu zależy w dużej mierze od skrupulatnego doboru oddziaływań (zmiennych parametrów), opracowania metodyki postępowania, które pozwolą odpowiedzieć na postawione pytania. 4. Wybór badanego materiału - należy uwzględnić cele eksperymentu oraz wielkość populacji o której wnioski chcemy wyciągnąć. Materiał powinien stanowić próbę reprezentatywną tego materiału. 5. Wybór układu doświadczalnego - tutaj ponownie należy rozważyć cele, ale podstawową zasadą jest wybranie najprostszego układu spełniającego wymagania co do dokładności pomiaru. 6. Wybór obserwowanej wielkości i ilości powtórzeń. 7. Kontrola wzajemnego wpływu obserwowanych wielkości - zwykle stosuje się tu wartości graniczne lub obróbkę statystyczną. 8. Wstępna, teoretyczna analiza przydatności wyników - zebrane dane powinny prawidłowo opisywać skutki oddziaływania będące celem eksperymentu. 9. Przeprowadzenie analizy statystycznej i zsumowanie wyników - opisanie źródeł błędów i określenie stopni swobody dla analizy wariancji. Należy zaplanować zastosowanie różnych testów F, zaplanować jak otrzymane wyniki będą zastosowane oraz przygotować odpowiednie tabele lub wykresy przedstawiające spodziewany efekt pomiarów (które należy porównać z założonymi celami). W tym miejscu dobrze jest dać nasze plany do przejrzenia kolegom, mogą oni zauważyć błędy, których my nie zauważyliśmy. 10. Przeprowadzenie doświadczenia - przeprowadzając eksperyment staraj się zachować obiektywizm. Zorganizuj tak zapisywanie danych aby łatwo je było potem analizować. Jeśli konieczne jest kopiowanie (przepisywanie) danych nie zapnij porównać ze sobą oba egzemplarze! 11. Analiza danych i interpretacja wyników - Wszystkie dane doświadczalne powinny zostać zanalizowane w zaplanowany sposób a wyniki zinterpretowane w świetle warunków doświadczenia, hipotezy powinny zostać przetestowane. 12. Przygotowanie kompletnego, czytelnego i poprawnego raportu badań.

Wnioskowanie dedukcyjne i indukcyjne Wnioskowanie dedukcyjne polega na rozumowaniu od stwierdzeń ogólnych do szczególnych. Tzn. mamy kilka ogólnych praw, lub tylko jedno, a za zadanie mamy określić, co wydarzy się w przypadku wystąpienia pewnego specyficznego zestawu warunków. Gdy mamy zespół poszczególnych przypadków i na tej podstawie powinniśmy odpowiedzieć na pytanie o ogólne prawo rządzące tymi przypadkami, to wówczas przeprowadzamy wnioskowanie indukcyjne. Wnioskowanie od szczegółu do ogółu nazywane jest wnioskowaniem indukcyjnym.

Hypotheses in data analysis Możność budowania hipotez opiera się na założeniu, że w naturze istnieje pewien ład, nie jest to jednak równoznaczne ze stwierdzeniem, że wszystkie części natury są uporządkowane. Jeżeli dwie hipotezy pasują do zaobserwowanych faktów, a jedna z nich jest prostsza od drugiej, to zazwyczaj przyjmuje się tę prostszą, do czasu, gdy dalsze fakty nie spowodują jej odrzucenia. Przykład 1. Podczas wyznaczania współczynnika przewodnictwa cieplnego za pomocą aparatu Christiansena, mierzy się temperaturę w trzech różnych punktach, za pomocą trzech jednakowych termometrów. Ze względu na symetrię układu zamiana miejscami dwu termometrów nie powinna wpłynąć na wynik pomiaru. Gdy zamienimy termometry, najczęściej stwierdzamy, że wystąpiła różnica wskazań, bowiem każdy z termometrów ma inny błąd systematyczny, a każdy z pomiarów obarczony jest błędem przypadkowym. Zamieniając termometry i obliczając średnią z kilku pomiarów, znacznie redukujemy całkowity błąd pomiaru. Jeżeli różnice temperatur T2 - T1 i T3 - T2 są małe, wskazane wydaje się tutaj zastąpienie zwykłych termometrów, platynowymi termometrami oporowymi włączonymi w ramiona dwóch mostków Wheatstone'a. Hipoteza jest to próbna teoria dotycząca natury i powiązań poszczególnych obserwacji. Hipotezy różnią się swą subtelnością i w związku z tym źródłem swego powstania. Prosta hipoteza może być na przykład tylko uogólnieniem obserwacji, hipoteza bardziej złożona może postulować istnienie powiązań między zdarzeniami lub skompliko-wanych łańcuchów przyczynowo-skutkowych.

Thank you for attention ! http://www.if.p.lodz.pl/tomasz.wojtatowicz/