Statystyka Alfred Stach WYKŁAD rok akademicki 2013/2014 Instytut Geoekologii i Geoinformacji WNGiG e-mail: frdstach@amu.edu.pl, tel. +4861-829-6179 dyżur w semestrze zimowym RA 2013/2014: poniedziałek 12:00 – 14:00
Zakres tematyczny zajęć Wprowadzenie. Podstawowe pojęcia. Porządkowanie i wizualizacja danych. Statystyki opisowe. Podstawy teorii prawdopodobieństwa. Własności i zastosowanie rozkładów dwumianowego, Poissona, geometrycznego i hipergeometrycznego (urnowego). Krzywa normalna i rozkłady próbkowe. Estymacja statystyczna. Testowanie hipotez. Korelacja i regresja. Test Chi-kwadrat i rozkład F. Statystyki nieparametryczne. Twierdzenie Bayesa. Zagadnienia specjalistyczne 1 i 2.
Parametry statystyczne Analiza danych powinna doprowadzić do zwięzłego przedstawienia wyników badań za pomocą charakterystyk liczbowych zwanych parametrami statystycznymi. Parametry statystyczne to wielkości liczbowe służące do syntetycznego opisu struktury zbiorowości statystycznej. Stosowane parametry dzieli się na: miary położenia miary zmienności (miary rozproszenia, dyspersji) miary asymetrii miary koncentracji
Statystyka opisowa Miary położenia
Miary położenia Miary położenia opisują umiejscowienie typowych wartości cechy statystycznej na osi liczbowej.
Miary położenia średnia arytmetyczna klasyczne średnia harmoniczna średnia geometryczna miary położenia modalna kwartyl pierwszy pozycyjne mediana kwantyle kwartyl trzeci centyle
Miary położenia Miary klasyczne, to miary, których wartość jest wyznaczona w oparciu o wszystkie obserwacje. Miary pozycyjne, to miary, na których wartość wpływają tylko wybrane obserwacje z próby uporządkowanej. Poszczególne rodzaje średnich są obliczane na podstawie wszystkich wartości przyjmowanych przez cechę w badanej zbiorowości. Dla każdego konkretnego przypadku powinno się obliczać tylko jedną średnią, bo tylko jedna z nich jest odpowiednia dla danej cechy statystycznej, a pozostałe nie mają sensu. Wartość modalna, jest tym wariantem cechy statystycznej, który był najczęściej obserwowany. Kwantyle to takie warianty cechy statystycznej, które dzielą badaną zbiorowość na części w określonych proporcjach, np. na połowy (mediana). Wśród miar położenia można wyróżnić miary przeciętne lub inaczej miary tendencji centralnej wskazujące średni lub typowy poziom cechy, które mówią o przeciętnym poziomie badanej cechy (średnie, modalna, mediana).
Średnia arytmetyczna Średnia arytmetyczna jest najczęściej wykorzystywaną miarą spośród klasycznych miar położenia. Inne średnie wykorzystywane są zdecydowanie rzadziej. Jest stosunkowo prosta do obliczenia. Jej wadą (wynikającą z tego, że w jej wyznaczaniu uwzględniane są wszystkie pomiary) jest wrażliwość na przypadki odstające. Przypadki odstające to pomiary, których wartość zdecydowanie odbiega od większości pozostałych. Zwykle są wynikiem błędów, np. błędów przy zapisywaniu przecinka (wzrost osoby 1,76 cm zamiast 176 cm). Średnią arytmetyczną wyznacza się ze wzoru:
Średnia arytmetyczna Przykład: Dwóch lekarzy bada pacjentów. Przeprowadzono obserwację czasu trwania tych badań w minutach. Zanotowano następujące wyniki: Dla lekarza A: 12, 15, 15, 18, 20 Dla lekarza B: 10, 10, 12, 12, 15, 15, 18, 20, 21, 21 Korzystając ze wzoru uzyskujemy:
Średnia harmoniczna Średnia harmoniczna jest stosowana zdecydowanie rzadziej niż arytmetyczna. Konieczność jej użycia zachodzi, gdy wartości cechy statystycznej podawane są w przeliczeniu na stałą jednostkę innej zmiennej, np. prędkość w km/h, gęstość zaludnienia w osobach/km2, spożycie w kg/osobę, itp. Średnią harmoniczną można wyznaczyć ze wzoru:
Średnia harmoniczna Przykład: W ciągu 8 godzin pracy w przychodni obserwowano pracę trzech pielęgniarek. Na wykonanie obowiązków związanych z jednym pacjentem pielęgniarka A potrzebowała 4 min pielęgniarka B – 6 min, a pielęgniarka C – 12 min. Jaki jest średni czas zużywany na jednego pacjenta? (proszę zwrócić uwagę na rzeczywistą jednostkę badanej cechy: min/osobę!!!)
Średnia harmoniczna Gdyby w omawianym przykładzie zastosować średnią arytmetyczną uzyskalibyśmy inny wynik: Jest to wynik nieprawidłowy, bo przy takim tempie pracy, trzy pielęgniarki w ciągu 8 godzin (480 minut) obsłużyłyby 3×480÷7,333 min=196 osób. W rzeczywistości jednak, pielęgniarka A mogłaby zająć się 480÷4=120 pacjentami, pielęgniarka B - 480÷6=80, a pielęgniarka C - 480÷12=40, co daje łącznie 120+80+40=240 pacjentów.
Średnia geometryczna Średnią geometryczną stosuje się przy badaniu średniego tempa zmian zjawisk, tzn. w sytuacji, gdy zjawiska są ujmowane w sposób dynamiczny. Średnią geometryczną wyznacza się korzystając ze wzoru:
Średnia geometryczna Przykład: W ciągu trzech kolejnych lat liczba osób nowozakażonych wirusem HIV wynosiła odpowiednio: 500, 750, 825. Jaki był średni względny przyrost liczby nowych zakażeń? Wartości cechy statystycznej w tym zadaniu to przyrosty liczby zakażeń w kolejnych latach, tzn.: Zgodnie ze wzorem, średni przyrost, to:
Średnia geometryczna Gdyby w tym przykładzie zastosować średnią arytmetyczną uzyskalibyśmy wynik: (1,5+1,1)÷2=1,3. Wynikałoby z tego, że w 3 roku, powinno być 500×1,3×1,3=845 osób nowozakażonych.
Średnia ważona Średnia ważona niepustej listy danych z odnoszącymi się do nich nieujemnymi wagami z których co najmniej jedna jest dodatnia, jest określona przez: co oznacza: W ten sposób dane którym przypisano większe wagi mają większy udział w określeniu średniej ważonej niż dane, którym przypisano mniejsze wagi. Jeśli wszystkie wagi są równe, wówczas średnia ważona jest równa średniej arytmetycznej. Ogólnie, średnia ważona ma podobne własności do średniej arytmetycznej, jednakże ma ona kilka nieintuicyjnych cech
Średnia ważona Załóżmy, że są dwie klasy szkolne, jedna z 20 uczniami i druga z 30 uczniami. Wyniki testu przeprowadzonego w każdej klasie były następujące: klasa A = 62, 67, 71, 74, 76, 77, 78, 79, 79, 80, 80, 81, 81, 82, 83, 84, 86, 89, 93, 98 klasa B = 81, 82, 83, 84, 85, 86, 87, 87, 88, 88, 89, 89, 89, 90, 90, 90, 90, 91, 91, 91, 92, 92, 93, 93, 94, 95, 96, 97, 98, 99 Średnia arytmetyczna ocen w klasie A wynosi 80, a w klasie B 90. Średnia arytmetyczna z liczb 80 i 90, jest równa 85, gdyby tę średnią przyjęto jako średnią uczniów obu klas, wynik byłby nieprawidłowy, gdyż nie uwzględniono liczebności klas. Aby ją uwzględnić, należy zsumować wszystkie oceny uczniów obu klas i podzielić przez łączną liczbę uczniów: Jeśli nie ma ocen poszczególnych uczniów, a tylko średnie dla całych klas, można obliczyć średnią uczniów licząc średnią ważoną klas używając liczby uczniów w klasach jako wagi tych liczb:
Średnia ważona Z rzeki pobrano pięć próbek wody i określono w nich stężenie azotanów: Nr próby Stężenie (mg/L) Przepływ wody (L/s) 1 2,3 210 2 4,1 128 3 1,8 490 4 6,2 85 5 1,5 520 Jakie było średnie stężenie azotanów w tej rzece?
Średnia ważona przestrzenna lub czasowa
Modalna Wartość modalna, określana także jako dominanta, moda lub wartość najczęstsza, to wartość cechy statystycznej, która w danym rozkładzie empirycznym występuje najczęściej, a zatem jest to maksimum funkcji rozkładu empirycznego cechy statystycznej. Mo
Modalna Przykład: Wykorzystując dane z przykładu dla średniej arytmetycznej (czasy badania pacjentów): Dla lekarza A: 12, 15, 15, 18, 20 Dla lekarza B: 10, 10, 12, 12, 15, 15, 18, 20, 21, 21 W przypadku lekarza A wartością modalną jest czas 15 minut. W przypadku lekarza B nie możemy określić wartości modalnej, ponieważ żadna z wartości cechy nie przyjęła pozycji dominującej (cztery wartości cechy powtarzały się dwukrotnie). Jeśli przyjmiemy, że próbę stanowiły łączne wyniki pracy obu lekarzy, to modalną jest wartość 15 (występująca w tym przypadku 4 razy): Mo=15 min
Modalna Wartość modalna, jako miara pozycyjna, jest odporna na występowanie przypadków odstających. Jeśli przykładowo następujące dane (czas pobytu pacjenta w szpitalu w dniach): 6, 7, 8, 8, 9, 11, 11, 11, 14, 14, 15, 16, 117 To średni czas pobytu wyniósłby (6+7+8+8+9+11+11+11+14+14+15+16+117)÷13=19 dni Pomimo, że hospitalizacje nie były dłuższe niż 16 dni (poza jednym pacjentem, który z jakiejś przyczyny był leczony bardzo długo), wartość średniej arytmetycznej jest stosunkowo wysoka. Jest ona silnie zawyżana przez jeden przypadek odstający. Gdyby jednak do opisania typowego czasu hospitalizacji użyć wartości modalnej, uzyskamy wynik 11 dni, który jest zbliżony do czasy hospitalizacji prawie wszystkich pacjentów (poza jednym przypadkiem odstającym).
Kwantyle Kwartyl pierwszy (Q1) dzieli zbiorowość na dwie części tak, że 25% jednostek zbiorowości ma wartości cechy niższe bądź równe kwartylowi pierwszemu, a 75% równe bądź wyższe. Mediana (Me, kwartyl drugi) dzieli zbiorowość na dwie równe części; połowa jednostek ma wartości cechy mniejsze bądź równe medianie, a połowa wartości cechy równe lub większe od Me. W szeregu szczegółowym medianą jest wartość znajdująca się w jego środku, stąd mediana jest nazywana wartością środkową. Kwartyl trzeci (Q3) dzieli zbiorowość na dwie części tak, że 75% jednostek zbiorowości ma wartości cechy niższe bądź równe kwartylowi trzeciemu, a 25% równe bądź wyższe. Kwantyle definiuje się jako wartości cechy badanej populacji, przedstawionej w postaci szeregu statystycznego, które dzielą zbiorowość na określone części pod względem liczby jednostek. Części te pozostają do siebie w określonych proporcjach.
Mediana Medianę wyznacza się ze wzoru: Przykład: gdy n jest nieparzyste gdy n jest parzyste (mediana jest średnią dwu środkowych elementów szeregu) Przykład: Dane czasów hospitalizacji pacjentów: 6, 7, 8, 8, 9, 11, 11, 11, 14, 14, 15, 16, 117 Ponieważ szereg liczy 13 elementów, to zgodnie ze wzorem, środkowym jest element (13+1)÷2=7 w szeregu uporządkowanych wartości, czyli 11. Łatwo udowodnić, że także mediana jest niewrażliwa na przypadki odstające. Obok średniej arytmetycznej, mediana jest najczęściej stosowanym parametrem statystycznym.
Kwartyle Kwartyle wyznacza się w sposób analogiczny do mediany. Wyznaczając medianę, dzielimy badany szereg na dwie połowy. Wyznaczenie kwartyla pierwszego sprowadza się do znalezienia mediany w połowie zawierającej jednostki mniejsze od mediany, a wyznaczenie kwartyla trzeciego to znalezienie mediany w połowie zawierającej jednostki większe od mediany. Opierając się na poprzednim przykładzie, kwartylem pierwszym będzie mediana szeregu: 6, 7, 8, 8, 9, 11, 11, czyli 8, natomiast kwartylem trzecim będzie mediana szeregu 11, 11, 14, 14, 15, 16, 117, czyli 14. Podsumowując, dla przytoczonego przykładu: Q1=8, Me=11, Q3=14
Centyle Centyle stosowane są dla prób o dużej liczebności. Wskazują jaki procent jednostek w próbie uzyskał wynik mniejszy od danego. Tym samym centyl 50 odpowiada medianie, a centyle 25 i 75 to odpowiednio pierwszy i trzeci kwartyl. Centyle są często stosowane do odnoszenie różnych pomiarów antropometrycznych u badanego dziecka do ogółu populacji dzieci. Służą do tego siatki centylowe. Są to wykresy kilku wybranych centyli (zwykle 3, 10, 25, 50, 75, 90 i 97) w zależności od wieku dla wybranego parametru antropometrycznego (np. wagi, wzrostu, obwodu głowy, itp.).
Centyle Siatka centylowa wzrostu u chłopców Przykład: Ocenić wzrost 13 letniego chłopca, mierzącego 170 cm. Ponieważ dla populacji 13-letnich chłopców, wzrost 170 cm jest 90-tym centylem, zatem w tej grupie wiekowej 90% chłopców jest niższych niż 170 cm, a 10% ma wzrost wyższy od 170 cm.
Miary położenia Skala Moda Mediana Średnia X Nominalna Porządkowa X X Nominal Mode e.g., what’s the favourite colour? Ordinal Median e.g., See also http://www.quickmba.com/stats/centralten/ X Interwałowa X X Ilorazowa (stosunkowa) X? X X
Relacje średnie, mediany i mody w zależności od kształtu rozkładu
Statystyka opisowa Miary zmienności
Miary zmienności Miary zmienności (rozproszenia, dyspersji) opisują rozrzut wartości cechy statystycznej w populacji wokół wartości przeciętnej. Charakteryzują stopień zróżnicowania jednostek zbiorowości pod względem badanej cechy.
Miary zmienności wariancja odchylenie standardowe klasyczne odchylenie przeciętne współczynnik zmienności miary zmienności rozstęp pozycyjne odchylenie ćwartkowe współczynnik zmienności Miary klasyczne, to miary, których wartość jest wyznaczona w oparciu o wszystkie obserwacje. Miary pozycyjne, to miary, na których wartość wpływają tylko wybrane obserwacje z próby uporządkowanej.
Wariancja Wariancja jest średnią arytmetyczną kwadratów odchyleń poszczególnych obserwacji od średniej arytmetycznej zbiorowości: Ważną cechą wariancji jest to, że nie jest wyrażona w jednostkach cechy, ale w jednostkach podniesionych do kwadratu, np. wariancja dla wzrostu może mieć jednostkę cm2
Odchylenie standardowe Aby uzyskać miarę zmienności o jednostce zgodnej z mianem badanej cechy statystycznej, można posłużyć się odchyleniem standardowym, które jest pierwiastkiem kwadratowym wariancji: Odchylenie standardowe określa przeciętne zróżnicowanie poszczególnych wartości cechy od średniej arytmetycznej. Odchylenie standardowe bywa także oznaczane symbolem SD.
Odchylenie standardowe Znając średnią arytmetyczną i odchylenie standardowe próby, można określić typowy obszar zmienności: W tym obszarze mieszczą się wartości cechy 68% wszystkich jednostek badanej zbiorowości statystycznej.
Odchylenie standardowe 68% 95% 99,7% Poza przedział +/- jednego odchylenia standardowego od średniej wykracza około 33% obserwacji. Poza przedział +/- dwóch odchyleń standardowych od średniej wykracza tylko około 5% obserwacji. Prawdopodobieństwo, wystąpienia obserwacji spoza przedziału +/- trzech odchyleń standardowych od średniej jest znikome i wynosi ok. 0,3%.
Reguła Czebyszewa Jaka część (F) wartości z dowolnego analizowanego zbioru danych znajduje się w obrębie określonej odległości od średniej arytmetycznej? Miarą tej odległości jest odchylenie standardowe (k). dla każdego k > 1 Wyliczona ze wzoru wartość określa dolną granicę częstości: W granicach średnia +/- k odchyleń standardowych znajduje się co najmniej F% przypadków z całego zbioru danych
Wzory obliczeniowe na wariancję i odchylenie standardowe z próby
Odchylenie przeciętne Odchylenie przeciętne (d) jest średnią arytmetyczną bezwzględnych odchyleń wartości cechy od jej średniej arytmetycznej. Odchylenie przeciętne jest miarą rzadziej stosowaną w analizach statystycznych niż odchylenie standardowe, mimo że jego interpretacja jest podobna. Odchylenie przeciętne jest zawsze mniejsze od odchylenia standardowego, policzonych dla tego samego szeregu: d < s
Wariancja, odchylenie standardowe i przeciętne Przykład: Czasy badania pacjentów przez dwóch lekarzy w minutach były następujące: Dla lekarza A: 12, 15, 15, 18, 20 Dla lekarza B: 10, 10, 12, 12, 15, 15, 18, 20, 21, 21 Obliczone wcześniej średnie arytmetyczne wynoszą odpowiednio 16 min i 15,4 min dla lekarza A i B. Wariancja czasu badania lekarza A wynosi:
Wariancja, odchylenie standardowe i przeciętne Dla lekarza A średni czas badania wynosi 16 min, a przeciętne zróżnicowanie ±2,76 min, natomiast dla lekarza B 15,4±4,15 min. Typowy obszar zmienności wynosi: dla lekarza A – (13,24 min; 18,76 min) dla lekarza B – (11,25 min; 19,55 min) Odchylenie przeciętne dla lekarza A jest następujące:
Rozstęp Rozstęp jest najprostszą miarą zmienności. Definiuje się go jako różnicę między najwyższą i najniższą zaobserwowaną wartością cechy statystycznej: R = xmax – xmin Rozstęp opisuje empiryczny obszar zmienności badanej cechy, nie daje jednak informacji o zróżnicowaniu poszczególnych wartości cechy w całej zbiorowości. Jest miarą pozycyjną. Np. dla przytoczonego wcześniej przykładu czasu badania dwu lekarzy: RA = 20 – 12 = 8 min RB = 21 – 10 = 11 min Łatwo zauważyć że wartość rozstępu, zależy od tego jak bardzo skrajny przypadek trafi się w próbie, czyli od jednostkowych przypadków ekstremalnych, a nie od zróżnicowania typowych obserwacji przeważających w zbiorowości.
Odchylenie ćwiartkowe Tak jak odchylenie standardowe jest najczęściej stosowane do opisania odchylenia wartości cechy od średniej arytmetycznej, tak odchylenie ćwiartkowe jest miarą zmienności najczęściej używaną w parze z medianą. Odchylenie ćwiartkowe (Q) jest połową różnicy między trzecim, a pierwszym kwartylem: Odchylenie ćwiartkowe mierzy poziom zróżnicowania tylko części jednostek, pozostałej po odrzuceniu 25% jednostek o wartościach najmniejszych i 25% jednostek o wartościach największych. Kwartyli można użyć również do wyznaczenia typowego obszaru zmienności: (Q1 < xtyp < Q3) do którego należy 50% obserwacji.
Odchylenie ćwiartkowe W przykładzie dotyczącym czasów badania pacjentów przez lekarzy A i B, wartości kwartyli są następujące: Q1A = 15, Q3A = 18 Q1B = 12, Q1B = 20 zatem: QA = (18-15)÷2=1,5 min QB = (20-12)÷2=4 min
Współczynniki zmienności Współczynnik zmienności jest ilorazem bezwzględnej miary zmienności cechy i średniej wartości tej cechy. W konstrukcji współczynnika zmienności można użyć zarówno miar klasycznych, jak i pozycyjnych. Współczynnik zmienności stosuje się zwykle, gdy chcemy ocenić zróżnicowanie kilku zbiorowości pod względem tej samej cechy, ewentualnie tej samej zbiorowości pod względem kilku cech. Współczynnik zmienności jest wielkością niemianowaną. Wartości współczynników podaje się z reguły w procentach. Przyjmuje się, że jeżeli współczynnik zmienności jest mniejszy niż 10%, to zróżnicowanie cechy jest statystycznie nieistotne. Duże wartości współczynnika zmienności świadczą o zróżnicowaniu, a więc niejednorodności zbiorowości.
Współczynniki zmienności Klasyczne współczynniki zmienności: oraz gdzie W przykładzie dotyczącym czasów badania pacjentów przez lekarzy A i B, wartości średnich i odchyleń są następujące: zatem odpowiednie współczynniki zmienności są następujące:
Współczynniki zmienności Pozycyjne współczynniki zmienności: gdzie oraz W przykładzie dotyczącym czasów badania pacjentów przez lekarzy A i B, wartości kwartyli są następujące: MeA = 15, Q1A = 15, Q3A = 18, QA = 1,5 MeB = 15, Q1B = 12, Q1B = 20, QB = 4 zatem odpowiednie współczynniki zmienności są następujące:
Miary zmienności Zakres (min./maks) Skala Nominalna Porządkowa X X? X Odch. Stand. Zakres (min./maks) Skala Percentyle Nominalna Porządkowa X X? Interwałowa X X Ilorazowa (stosunkowa) X X X
Miary kształtu (asymetrii, spłaszczenia) Statystyka opisowa Miary kształtu (asymetrii, spłaszczenia)
Miary asymetrii Często zdarza się, że porównanie średniego poziomu cechy i jej rozproszenia nie wykazuje różnic między badanymi zbiorowościami, a jednak obserwacja rozkładów empirycznych wyklucza podobieństwo struktury. Rozważmy następujący przykład: w trzech szpitalach wylosowano po 20 pracowników w celu określenia ich zarobków. Uzyskano następujące wyniki: Szpital A - 750, 750, 1250, 1250, 1250, 1250, 1750, 1750, 1750, 1750, 1750, 1750, 1750, 1750, 2250, 2250, 2250, 2250, 2750, 2750 Szpital B - 750, 1250, 1250, 1250, 1250, 1250, 1250, 1250, 1750, 1750, 1750, 1750, 1750, 2250, 2250, 2250, 2250, 2250, 2750, 2750 Szpital C - 750, 750, 1250, 1250, 1250, 1250, 1250, 1750, 1750, 1750, 1750, 1750, 2250, 2250, 2250, 2250, 2250, 2250, 2250, 2750
Miary asymetrii Gdyby obliczyć średnie arytmetyczne i odchylenia standardowe, w każdym szpitalu uzyskamy 1750±562 zł. Przedstawienie rozkładów empirycznych zarobków w tych 3 szpitalach w postaci histogramów pozwala zaobserwować różnice: rozkład symetryczny rozkład asymetryczny prawostronnie rozkład asymetryczny lewostronnie
Miary asymetrii Asymetrię można ocenić porównując różnice pomiędzy średnią arytmetyczną, a medianą lub modalną. W przypadku asymetrii prawostronnej spełniona jest nierówność: Natomiast w przypadku asymetrii lewostronnej spełniona jest nierówność: Można to wyrazić za pomocą wskaźnika skośności, który przyjmuje wartość 0 przy braku asymetrii, wartości dodatnie przy asymetrii prawostronnej, a wartości ujemne przy asymetrii lewostronnej (przy użyciu miar klasycznych i pozycyjnych): lub
Miary asymetrii Im większa wartość bezwzględna wskaźnika skośności, tym silniejsza asymetria. Można użyć także klasycznego współczynnika asymetrii, wyrażonego wzorem: Obliczenie tego współczynnika jest stosunkowo czasochłonne, dlatego praktyczniej jest oceniać asymetrię rozkładu korzystając z miar pozycyjnych (wskaźnik asymetrii)
Skośność (3 moment rozkładu) Skrzywienie (nachylenie rozkładu) Skośność dodatnia = „ogon” po prawej Skośność ujemna = „ogon” po lewej Może być efektem występowania danych odstających (naturalne anomalie lub dane błędne) Może być związana z efektem „podłogi” i „sufitu” Można ją określić precyzyjnie
Skośność (3 moment rozkładu) http://www.visualstatistics.net/Visual%20Statistics%20Multimedia/normalization.htm Skośność ujemna - lewostronna Skośność dodatnia - prawostronna
Efekt „stropu” („sufitu”)
Efekt „podłogi”
Kurtoza Kurtoza (z gr. κυρτός, kyrtos, kurtos - wydęty) - jedna z miar spłaszczenia rozkładu wartości cechy. Definiuje się ją następującym wzorem: gdzie μ4 jest czwartym momentem centralnym, zaś σ to odchylenie standardowe. W niektórych pracach, szczególnie starszych, można spotkać się ze wzorem na kurtozę, w którym nie odejmuje się od ułamka liczby 3. Nowa definicja kurtozy jest jednak bardziej wygodna, gdyż: kurtoza rozkładu normalnego wynosi 0 jeśli Y jest sumą n niezależnych zmiennych losowych, każdej o rozkładzie identycznym z rozkładem zmiennej losowej X, zachodzi własność: Kurt[Y] = Kurt[X] / n.
Kurtoza Kurtoza z próby wyraża się wzorem: Gdzie: xi to i-ta wartość cechy, μ to wartość oczekiwana w populacji, σ to odchylenie standardowe w populacji, zaś n to liczebność próby.
Kurtoza (4 moment rozkładu ) Spłaszczenie lub „smukłość” rozkładu kurtoza dodatnia= rozkład „smukły” = leptokurtyczny Kurtoza ujemna = rozkład „spłaszczony” = platykurtyczny Uwaga! Rozkład może się wyglądać na smukły lub spłaszczony jedynie ze względu na przyjęte skale osi X i Y – weryfikacją jest dodanie krzywej rozkładu normalnego do histogramu
Kurtoza (4 moment rozkładu) The kurtosis reflects the extent to which the density of the empirical distribution differs from the probability densities of the normal curve. Mesokurtic = 0 http://www.visualstatistics.net/Visual%20Statistics%20Multimedia/normalization.htm Czerwona = dodatnia (leptokurtyczna) Niebieska = ujemna (platykurtyczna) Niebieska = ujemna (platykurtyczna)
Opisywanie danych nominalnych Częstości (frekwencje) Występujące najczęściej? Występujące najrzadziej? Częstość względna (odsetki)? Wykresy słupkowe Porównanie wysokości słupków – kształt jest dowolny przydatność użycia bezwzględnych/względnych częstości
Częstości Liczba przypadków w określonej klasie (grupie) Tabele częstości (frekwencji) Wizualizacja (wykresy słupkowe, diagramy kołowe) Przedstawianie względnej częstości (%)
Tabela częstości > .Table # counts for origin Europa Japonia USA 26 44 85 > round(100*.Table/sum(.Table), 2) # percentages for origin 16.77 28.39 54.84
Wykres słupkowy częstości
Diagram kołowy częstości
Ssaki z wykopalisk neolitycznych na terenie Polski Makowiecki, D., Stach, A., 2007: Ssaki wolno żyjące w holocenie Polski - aspekt środowiskowy i gospodarczy. [w:] Studia interdyscyplinarne nad środowiskiem i kulturą w Polsce, red. M. Makohonienko, D.Makowiecki, Z Kurnatowska. Środowisko – Człowiek – Cywilizacja, tom 1. Seria Wydawnicza Stowarzyszenia Archeologii Środowiskowej. Bogucki Wydawnictwo Naukowe, Poznań 2007, str. 155-170.
Ssaki z wykopalisk neolitycznych na terenie Polski Makowiecki, D., Stach, A., 2007: Ssaki wolno żyjące w holocenie Polski - aspekt środowiskowy i gospodarczy. [w:] Studia interdyscyplinarne nad środowiskiem i kulturą w Polsce, red. M. Makohonienko, D.Makowiecki, Z Kurnatowska. Środowisko – Człowiek – Cywilizacja, tom 1. Seria Wydawnicza Stowarzyszenia Archeologii Środowiskowej. Bogucki Wydawnictwo Naukowe, Poznań 2007, str. 155-170.
Wykres radarowy częstości
Porządkowanie statystyczne: polega na przedstawieniu danych statystycznych w postaci ciągu rosnącego (uporządkowanie rosnące) lub malejącego (uporządkowanie malejące)
Szereg statystyczny Dane statystyczne, uporządkowanie w kolejności rosnącej lub malejącej oraz odpowiednio pogrupowane, a następnie zaprezentowane w postaci tabelarycznej, nazywamy szeregiem statystycznym. W praktyce najczęściej stosowane są szeregi statystyczne: wyliczające rozdzielcze (strukturalne) geograficzne (terytorialne, przestrzenne) dynamiczne (czasowe, chronologiczne).
Szereg rozdzielczy Szereg rozdzielczy jest zestawieniem, w którym wartości badanej cechy statystycznej rozdzielone są na określone grupy (klasy), a każdej grupie (klasie) przyporządkowana jest liczba wartości do niej należących. Możemy stwierdzić, że szereg rozdzielczy przedstawia strukturę badanej zbiorowości.
Histogram Histogram jest wykresem słupkowym, w którym szerokości poszczególnych słupków odpowiadają długości przedziałów klasowych szeregu rozdzielczego, a wysokości liczebności tych przedziałów. Będziemy wyróżniać dwa rodzaje histogramów: histogram liczebności, gdy wysokości słupków odpowiadają liczebności przedziałów klasowych histogram częstości, gdy wysokości słupków odpowiadają częstości przedziałów klasowych
Histogram
Histogram z danych empirycznych: ile klas / jaka szerokość klas? duża liczność próby (n > 30) decyzja o liczbie klas (k): (n/2) < k < n k 1 + 3,3 log n k < 5 log n dla j(2 ; k-1) liczność j-tej klasy, nj5 stała szerokość klasy R/k początek podziału xp <= xmin; przy czym xmax<= xp + k j-ty przedział klasowy: < xp + (j-1); xp + j ) środek j-tego przedziału xp + (j - 0,5)
Histogramy Ze wzrostem liczby przedziałów częstości obserwacji w przedziałach stają się coraz niższe. Można temu zapobiec wykreślając częstość / szerokość przedziału. W takim histogramie pole powierzchni słupka jest równe częstości.
Histogramy
Typy rozkładu zmiennej reprezentowane przez histogram
Liczba posterunków opadowych w promieniu 36 km od węzła siatki interpolacyjnej VIII 1975
Odległość (m) węzła siatki interpolacyjnej od najbliższego posterunku pomiarowego VIII 1975
Dane z pomiarów czujnikiem TDR na poletku tundry mokrej – dolina rzeki Ebby 21 sierpnia 2013
Dane z pomiarów czujnikiem TDR na poletku tundry mokrej – dolina rzeki Ebby 21 sierpnia 2013
Dane z pomiarów czujnikiem TDR na poletku tundry mokrej – dolina rzeki Ebby 21 sierpnia 2013
Dane z pomiarów czujnikiem TDR na poletku tundry mokrej – dolina rzeki Ebby 21 sierpnia 2013
Dane z pomiarów czujnikiem TDR na poletku tundry mokrej – dolina rzeki Ebby 21 sierpnia 2013
Dane z pomiarów czujnikiem TDR na poletku tundry mokrej – dolina rzeki Ebby 21 sierpnia 2013
Wykres pudełkowy (pudełko-wąsy, box and whisker)
Wykres pudełkowy (pudełko-wąsy, box and whisker) Dane odstające = 1H Dane ekstremalne = 1,5H
Wykres pudełkowy (pudełko-wąsy, box and whisker)
Czynniki glebowe w infekcji trawy mannicy odstającej (Puccinellia distans) endofitycznym grzybem Epichloё typhina
Czynniki glebowe w infekcji trawy mannicy odstającej (Puccinellia distans) endofitycznym grzybem Epichloё typhina
Czynniki glebowe w infekcji trawy mannicy odstającej (Puccinellia distans) endofitycznym grzybem Epichloё typhina
Maksymalne opady dobowe w miesiącach i latach wielolecia 1956-80