Fundamentals of Data Analysis Lecture 5 Testing of statistical hypotheses pt.2.

Slides:



Advertisements
Podobne prezentacje
Poland - DAPHNE subproject
Advertisements

Session 6 Case Study – Elektrim SA Saturday, January 15, 2011 SAL Wroclaw Lectures on Corporate Governance Geoffrey Mazullo Principal Emerging Markets.
G.Broda Helsinki 20-22, September 2010
Paweł Solon PRESENTS Jagiellonian Uniwersity Jagiellonian university Jagiellonian university in Krakow was the second university to be founded in Central.
Projekt Do kariery na skrzydłach – studiuj Aviation Management Projekt współfinansowany ze ś rodków Europejskiego Funduszu Społecznego. Biuro projektu:
Usługi sieciowe Wykład 9 VPN
Statistics – what is that? Statystyka dla gimnazjalistów.
Projekt Do kariery na skrzydłach – studiuj Aviation Management Projekt współfinansowany ze ś rodków Europejskiego Funduszu Społecznego. Biuro projektu:
Projekt Do kariery na skrzydłach – studiuj Aviation Management Projekt współfinansowany ze ś rodków Europejskiego Funduszu Społecznego. Biuro projektu:
Projekt Do kariery na skrzydłach – studiuj Aviation Management Projekt współfinansowany ze ś rodków Europejskiego Funduszu Społecznego. Biuro projektu:
Projekt Do kariery na skrzydłach – studiuj Aviation Management Projekt współfinansowany ze ś rodków Europejskiego Funduszu Społecznego. Biuro projektu:
Projekt Do kariery na skrzydłach – studiuj Aviation Management Projekt współfinansowany ze ś rodków Europejskiego Funduszu Społecznego. Biuro projektu:
Sun altitude Made by: Patryk Cichy Patryk Cichy Mateusz Dąbrowicz Mateusz Dąbrowicz Mariusz Król Mariusz Król Mariusz Dyrda Mariusz Dyrda Group leader:
Wstęp do geofizycznej dynamiki płynów. Semestr VI. Wykład
Saint Nicolaus.
Copyright for librarians - a presentation of new education offer for librarians Agenda: The idea of the project Course content How to use an e-learning.
Software Engineering 0. Information on the Course Leszek J Chmielewski Faculty of Applied Informatics and Mathematics (WZIM) Warsaw University of Life.
Team Building Copyright, 2003 © Jerzy R. Nawrocki Requirements Engineering Lecture.
Dzielenie relacyjne / Relational Division
Parallel Processing, Pipelining, Flynn’s taxonomy
JET PUMPS introduction POMPY STRUMIENIOWE wstęp
Ministerstwo Gospodarki Poland'sexperience Waldemar Pawlak Deputy Prime Minister, Minister of Economy March 2010.
Nadprzewodniki na bazie żelaza
Polaryzacja światła.
Współprogramy Plan: Motywacja Składnia Scenariusz obiektu współprogramu Przykłady Producent – konsument ( instrukcja attach ) Czytelnik -pisarze ( instukcja.
Przykłady sieci obiektowych
„Tworzenie aplikacji sieciowych w języku Java”
Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu Społecznego Tworzenie aplikacji sieciowych w języku Java Threads Prezentacja.
POLSKA SZKOŁA PODSTAWOWA IM. LECHA BĄDKOWSKIEGO W LUZINIE
Zakład XII Struktury hadronów Instytutu Fizyki Jądrowej im. Henryka Niewodniczańskiego w Krakowie Nasz cel: badanie fundamentalnych oddziaływań podstawowych.
DIRECT &INDIRECT QUESTIONS
Projekt "Zagraniczna mobilność szkolnej kadry edukacyjnej w ramach projektów indywidualnych współfinansowany przez Unię Europejską w ramach środków Europejskiego.
Volleyball Polish national sport.
1 Office for supporting social initiatives BORIS.
Do you know who I am? Czy wiesz kim ja jestem Soy alguien con quien convives a diario Im somebody you live with every day.. Jestem kims z kim żyjesz.
. Four levels of education management: - Federal authorities, including the Department of Education; - The state authorities; - The local authority.
Contents About Kujawiak dance About Kuyavia S. Strzeleckis Kujawiak notes Kuyavias coat of arms Song Quiz.
Kosmologia realistyczna Marek Kutschera 05 V 2009 IPJ.
United Kingdom.
W ś wiecie ba ś ni Andersena In the world of Andersen.
INAUGURACYJNE POSIEDZENIE ZARZĄDU SEKCJI FENS PTF Wydział Fizyki Politechniki Warszawskiej Warszawa 08 maja 2004 r.
Comenius The Great Wonders of Europe The Polish school is called … is called …
About a risk in our area, do we know enough ?
- For students (12 questions) - For parents (6 questions) - For grandparents (6 questions)
REGIONALNE CENTRUM INFORMACJI I WSPOMAGANIA ORGANIZACJI POZARZĄDOWYCH REGIONAL INFORMATION and SUPPORT CENTER for NGOs EVALUATION V BALTIC SEA NGO FORUM.
TVP SA Odział w Łodzi Łódź ul. Narutowicza 13 TVP Łódź the Year of anniversary – it is already 55 years together.
BLOOD DONATION.
The educational project: „ HIGH SCHOOL EXAM - WE WILL BE ABLE!”
POLAND. we will take you on a journey during which you will learn something about us.
Wacław Sierpiński.
Pilots monument in Go ś ciniec Katarzyna Woś Natalia Wawrzaszek.
Stakeholder Analysis Lazarski University May, 2011 Edward T. Jennings, Jr. University of Kentucky Martin School of Public Policy and Administration.
Uczenie w sieciach Bayesa
I L.O. im. Mikołaja Kopernika in Bielsko-Biała The following presentation has been created within the confines of Socrates- Comenius Programme Teaching.
Teksty prymarne (original texts) to teksty autentyczne, nie są przeznaczone dla celów dydaktycznych; teksty adaptowane (simplified/adapted texts)są przystosowane.
Preface 2.General characteristics of the problem 3.Classical and non-classical approaches 4.Griffith-Irwin concept and linear fracture mechanics.
Introduction to Numerical Analysis
I am sorry, but I can’t go out with you
INSTYTUT METEOROLOGII I GOSPODARKI WODNEJ INSTITUTE OF METEOROLOGY AND WATER MANAGEMENT THE USE OF COSMO LM MODEL FOR AVIATION METEOROLOGICAL SERVICE IN.
What comes to your mind when you think about WATERFALLS? *** Co Ci się przypomina gdy myślisz o WODOSPADACH?
Comparative analysis Impact of 2005 and 2006 social campaigns on awareness of drug services and change of behaviours and attitudes to drug problem.
POLISH FOR BEGINNERS.
2 Review What is bionomial nomenclature Explain What is a genus
Wydział Elektroniki Kierunek: AiR Zaawansowane metody programowania Wykład 6.
A. When we celebrate? Celebrating the European Day of Languages ​​ on September 26 since We celebrate it in 47 countries.
CSIC 5011 Mini-Project 1:Principle Component Analysis on Finance Data
Connecticut Core Standards for English Language Arts & Literacy
Previously discusses: different kinds of variables
1.2.4 Hess’s Law.
Zapis prezentacji:

Fundamentals of Data Analysis Lecture 5 Testing of statistical hypotheses pt.2

Chi-square test To perform the test one should : 1. Calculate the mean value and the standard deviationa according equation : 2. Calculate value of chi-square statistics: Test of variation of the general population

Chi-square test 3. For level of confidence a and degree of freedom k = n - 1 we must find in tables of chi-square distribution the critical value that satisfies the equation: Inequality defines right-hand critical area. When during comparison of calculated value with the critical value we obtained that the null hypothesis should be rejected. Otherwise, there is no reason to reject the null hypothesis.

Chi-square test 11 independent measurements were made of cast pipe diameter and following results were obtained: 50.2, 50.4, 50.6, 50.5, 49.9, 50.0, 50.3, 50.1, 50.0, 49.6, 50.6 mm At confidence level α = 95% we should test the hypothesis that the variance of the obtained diameter of the pipes is equal to 0.04 mm Example

Chi-square test Mean value: Standard deviation: The hypothetical value of the variance Example

Chi-square test Chi-square statistics is equal: Critical value for degree of freedom equal to k=n-1=11-1=10: so the critical value read from the tables is less than calculated one, therefore, the null hypothesis should be rejected. Example

Chi-square test In order to verify the accuracy of the measuring instrument 6 measurements were made of the same quantity and the following values were obtained: 1.017, 1,021, 1.015, 1.019, 1.022, The measurements are normally ditributed. At the confidence level α = 99% verify the hypothesis that the variance of the measurements is equal to Exercise

Nonparametric test Nonparametric tests are decoupled from the distribution so the tested attribute may also be used in the case of arbitrary distribution, not necessarily close to normal. Nonparametric tests can be divided into two groups: tests of goodness of fit, allowing to test the hypothesis that the population has a certain type of distribution, tests of the hypothesis that two samples come from one population (ie, that the two populations have the same distribution).

Chi-square test of goodness of fit This is one of the oldest of statistical tests for confirming the hypothesis that the population has a certain distribution type (described in the form of a cumulative distribution function), and it may be either continuous or discrete distribution. The only limitation is that the sample must be large, containing at least tens of samples, because we have to share the results of some class values. These classes should not be too small a number to each of them should fall at least 8 results.

Chi-square test of goodness of fit The algorithm is as follows : 1. The results are divided into r disjoint classes of size n i, the size of the sample is equal to: Thus, we have the empirical distribution. 2. We formulate the null hypothesis that the tested population has a distribution with distribution function belonging to some set of distributions with a specific type of distribution function;

Chi-square test of goodness of fit 3. From the hypothetical distribution calculate for each of the r classess of the investigated quantity values of probability p i, that the random variable will take the value belonging to a class number i (i = 1,2,...,r); 4. We calculate the theoretical sizes np i, for class i, if the population has assumed distribution ;

Chi-square test of goodness of fit 5. From all the empirical ni and theoretical npi sizes we determine the value of chi-square statistics: which, assuming that the null hypothesis is true, has the chi-square distribution with r - 1 degrees of freedom or r - k - 1 degrees of freedom, where k is numeber of parameters estimated from the sample

Chi-square test of goodness of fit 6. From the tables of the chi-square distribution, for the selected level of confidence we must read the critical value to undergo a relation P( ) = We compare two values, and if the inequality null hypothesis should be rejected. In opposite case, when there is no reason to reject the null hypothesis, however, does not mean that we can accept it.

Chi-square test of goodness of fit In a physical experiment time of scintillation is measured. Number of mesurements n = 1000 and grouped set of results is as in Table. At the 99% confidence level to test the hypothesis that the time of occurrence of light effect which during these experiments was tested is normally distributed. From the content of the task does not arise hypothetical distribution parameters. Our null hypothesis will be: F(x) where is all normal distribution function class Example Two parameters of the distribution, the average value m and the standard deviation, we estimate from the sample using the estimators m = 0.67 i s = Further results are in a Table, where F(u i ) is the value of the normal distribution function N(0,1) at point u i = (x i -m) / s which is the standardized value of the right end of the range of the class. Degree of freedom k = = 4, since based on the random sample were calculated two parameters: the mean and standard deviation. From the tables from of the chi-square, with the level of significance 0.01, we find the critical value χ 2 = 13,277. Critical value is less than the calculated statistics equal to 73,52, Thus the hypothesis of normality should be rejected.

Chi-square test of goodness of fit During experiment n = 200 mesurements was conducted and grouped set of results is as in Table. At the 95% confidence level to test the hypothesis that the results of measurements are under uniform distribution. Example Mean of the classnini ,

Kolmogorov test of goodness of fit In Kolmogorov λ test of goodness of fit, for veryfication of hypothesis that population has specified distribution. Not be processed, as in the chi-square test, the size of empirical series and compares with the size of hypothetical series, but during thata test the empirical distribution function is compared to the hypothetical one. In fact, when the population distribution is consistent with the hypothesis the value of empirical and hypothetical distribution should be similar in all examined points. The test starts with the analysis of the differences between the two distribution functions, the largest of which will be used then for the construction of lambda statistics whose distribution does not depend on the form of a hypothetical distribution. This distribution determines the critical value for this test. If the maximum difference at some point in the area of the characteristic variability is too high, the hypothesis that the distribution of the population has the cumulative distribution as we suspect, it should be rejected. The us this test is limited, however, because the distribution hypothetical must be continuous, in principle, we should also know the parameters of this distribution, but in the case of large samples can be estimated from the sample.

Kolmogorov test of goodness of fit Stosowanie tego testu jest jednak ograniczone, dystrybuanta hipotetyczna musi bowiem być ciągła, w zasadzie powinniśmy też znać parametry tego rozkładu, jednak w przypadku dużych prób możemy je szacować na podstawie próby. Sposób postępowania w teście Kołmogorowa jest następujący: 1. porządkujemy wyniki w kolejności rosnącej lub grupujemy je w stosunkowo wąskie przedziały, o prawych końcach x i i odpowiadających im liczebnościach n i ; 2. wyznaczamy dla każdego x i wartość empirycznej dystrybuanty F n (x) korzystając ze wzoru: 3. z rozkładu hipotetycznego wyznaczamy dla każdego x i wartość teoretycznej dystrybuanty F(x); 4. dla każdego x i obliczamy wartość bezwzględną różnicy F n (x)-F(x); 5. obliczamy wartość statystyki D = sup|F n (x)-F(x)| oraz wartość statystyki: która, przy prawdziwości hipotezy zerowej, powinna mieć rozkład Kołmogorowa. 6. dla ustalonego poziomu ufności odczytujemy z granicznego rozkładu Kołmogorowa wartość krytyczną spełniającą warunek P{ kr } = 1 -. Gdy kr hipotezę zerową należy odrzucić, w przeciwnym wypadku nie ma podstaw do odrzucenia hipotezy zerowej.

Kolmogorov test of goodness of fit Przebadano próbkę o liczebności n = 1000, a wyniki, pogrupowane w 10 wąskich klasach, zawarto w tabeli. Naszym zadaniem jest wysunąć sensowną hipotezę zerową dotyczącą rozkładu i zweryfikować ją na poziomie ufności 95%. Example Rozkład liczebności jest zbliżony do symetrycznego, maksimum ma w jednej ze środkowych klas, co nasuwa hipotezę, że rozkład badanej cechy jest rozkładem normalnym N(m, ). Jeśliby w wysuniętej hipotezie przyjąć m = 65, to w przedziale, a więc o długości 4, mieściłoby się 1000-(25+19) = 956 wyników, co stanowi 95.6%. Z własności rozkładu normalnego wiemy, że prawdopodobieństwo przyjęcia wartości z przedziału o końcach u-1.96 i u+1.96 wynosi 95%, więc dla próby o liczebności 1000 w przedziale tym powinno się znaleźć 950 wyników, a więc niewiele mniej niż 956. Długość przedziału wynosi 3.92, co odpowiada w zadaniu wartości 4, zatem sensowną hipotezą wydaje się być = 1, czyli nasza hipoteza zerowa H 0 : N(65,1). W trzeciej kolumnie umieszczone są wartości dystrybuanty obliczone wg wzoru: W czwartej kolumnie umieszczamy standaryzowane prawe końce klas (x - m)/, w piątej kolumnie odczytane z tablicy wartości dystrybuanty F(xi) rozkładu N(0, 1), a w ostatniej wartości bezwzględne różnic między dystrybuantami, z których największa jest d 4 = 0,0280. Następnie obliczamy sqrt(n) d n = sqrt(1000) 0,0280 = 0,886. Dla poziomu ufności 0,95 odczytujemy z tablic rozkładu Kołmogorowa wartość krytyczną kr = 1,354. Jest ona większa od wartości obliczonej, zatem wyniki próby nie przeczą hipotezie zerowej, że rozkład populacji generalnej jest rozkładem normalnym N(65, 1).

To be continued … !