Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

Charakterystyki opisowe rozkładu jednej cechy Wykład 3 dr Małgorzata Radziukiewicz.

Podobne prezentacje


Prezentacja na temat: "Charakterystyki opisowe rozkładu jednej cechy Wykład 3 dr Małgorzata Radziukiewicz."— Zapis prezentacji:

1 Charakterystyki opisowe rozkładu jednej cechy Wykład 3 dr Małgorzata Radziukiewicz

2 Klasyfikacja miar statystycznych ze względu na informacje, jakie przynoszą one o rozkładzie cechy w zbiorowości: ze względu na informacje, jakie przynoszą one o rozkładzie cechy w zbiorowości: Miary poziomu Miary dyspersji Miary asymetrii Miary poziomu Miary dyspersji Miary asymetrii

3 Klasyfikacja miar statystycznych ze względu zakres danych niezbędnych do wyliczenia tych miar: ze względu zakres danych niezbędnych do wyliczenia tych miar: miary klasyczne miary klasyczne dla wyliczenia tych miar wykorzystuje się wartości cechy zaobserwowane u wszystkich badanych jednostek miary pozycyjne miary pozycyjne dla wyliczenia tych miar wykorzystuje się wartości cechy tylko niektórych jednostek, wybranych ze względu na pozycję, jaka zajmują one w uporządkowanym ciągu zaobserwowanych jednostek cechy

4 Klasyfikacja miar statystycznych dodatkowo, miary statystyczne mogą być miarami: dodatkowo, miary statystyczne mogą być miarami: absolutnymi absolutnymi mianowanymi, a więc wyrażonymi w mianie badanej cechy – lata, metry, sztuki, kilogramy, godziny itp.. względnymi (stosunkowymi) względnymi (stosunkowymi) niemianowanymi, wyrażonymi w ułamku lub w procencie – uzyskanymi poprzez podzielenie przez siebie odpowiednich miar absolutnych

5 Miary jednej cechy Miary poziomu

6 Miary poziomu rozkładu liczebności zwane są wartościami przeciętnymi Miary poziomu rozkładu liczebności zwane są wartościami przeciętnymi (lub średnimi) najbardziej rozpowszechnione w praktyce najbardziej rozpowszechnione w praktyce zacierają różnice indywidualne badanych jednostek zacierają różnice indywidualne badanych jednostek o wartości liczbowej tej miary decydują wartości liczbowe cechy posiadane przez wszystkie jednostki populacji o wartości liczbowej tej miary decydują wartości liczbowe cechy posiadane przez wszystkie jednostki populacji za pomocą jednej liczby podają centralną tendencję (poziom wartości zmiennej) za pomocą jednej liczby podają centralną tendencję (poziom wartości zmiennej)

7 Miary przeciętne Miary klasyczne Średnia arytmetyczna Średnia geometryczna Miary pozycyjne Mediana Dominanta (moda) Kwantyle

8 Miary przeciętne klasyczne Średnia arytmetyczna Średnia geometryczna są wypadkowymi wartościami wszystkich odmian cechy wszystkich badanych jednostek zbiorowości

9 Miary przeciętne pozycyjne Mediana Dominanta (moda) Kwantyle wskazują na określoną pozycję jednostek

10 Miary przeciętne pozycyjne Mediana Dominanta (moda) Kwantyle uporządkowaną populację dzielą na części pozycja najczęstsza (typowa) pozycja środkowa wskazują na określoną pozycję jednostek

11 Podstawową i najbardziej znaną miarą położenia i jednocześnie miarą tendencji centralnej jest średnia Podstawową i najbardziej znaną miarą położenia i jednocześnie miarą tendencji centralnej jest średnia Jest to średnia arytmetyczna wartości cechy Jest to średnia arytmetyczna wartości cechy Aby wyznaczyć poziom średniej badana cecha musi być mierzalną Aby wyznaczyć poziom średniej badana cecha musi być mierzalną

12 Jak otrzymać wartość średniej arytmetycznej dla danych indywidualnych? dysponując n wartościami cechy: dysponując n wartościami cechy: w pierwszej kolejności obliczamy sumę tych wartości: w pierwszej kolejności obliczamy sumę tych wartości: a następnie dzielimy przez liczbę obserwacji n: a następnie dzielimy przez liczbę obserwacji n:

13 Średnia arytmetyczna jest pewną abstrakcyjną wielkością, wypadkową wszystkich zaobserwowanych wartości cechy, powstałą wskutek operacji matematycznej Średnia arytmetyczna jest pewną abstrakcyjną wielkością, wypadkową wszystkich zaobserwowanych wartości cechy, powstałą wskutek operacji matematycznej Obliczona wartość średnia z reguły przyjmuje wartość w zbiorowości nie występującą Obliczona wartość średnia z reguły przyjmuje wartość w zbiorowości nie występującą Średnia arytmetyczna zaciera różnice indywidualne Średnia arytmetyczna zaciera różnice indywidualne Zmiana jakiejkolwiek wartości w zbiorze danych pociąga za sobą zmianę wartości średniej Zmiana jakiejkolwiek wartości w zbiorze danych pociąga za sobą zmianę wartości średniej

14 Jak otrzymać wartość średniej arytmetycznej dla danych pogrupowanych? w tym przypadku można uzyskać jedynie pewne przybliżenie, przyjmując, że każda jednostka n i należąca do danej klasy ma wartość cechy równą wartościom środka przedziału klasowego: w tym przypadku można uzyskać jedynie pewne przybliżenie, przyjmując, że każda jednostka n i należąca do danej klasy ma wartość cechy równą wartościom środka przedziału klasowego:

15 Właściwości średniej arytmetycznej

16 Wartość liczbowa średniej arytmetycznej ma takie samo miano jak badana cecha Wartość liczbowa średniej arytmetycznej ma takie samo miano jak badana cecha

17 Właściwości średniej arytmetycznej Średnia arytmetyczna zawiera się między krańcowymi wartościami cechy: Średnia arytmetyczna zawiera się między krańcowymi wartościami cechy:

18 Właściwości średniej arytmetycznej Średnia arytmetyczna obliczona z wartości sum x i + y i jest równa sumie średnich arytmetycznych obliczonych oddzielnie dla obu wartości: Średnia arytmetyczna obliczona z wartości sum x i + y i jest równa sumie średnich arytmetycznych obliczonych oddzielnie dla obu wartości:

19 Właściwości średniej arytmetycznej Wartość średniej arytmetycznej nie ulega zmianie, jeśli wszystkie wagi pomnożymy przez liczbę stałą c: Wartość średniej arytmetycznej nie ulega zmianie, jeśli wszystkie wagi pomnożymy przez liczbę stałą c:

20 Właściwości średniej arytmetycznej Jeżeli zbiorowość (populację) liczącą n elementów podzielimy na r podgrup (podpopulacji) o liczebnościach w 1, w 2, w 3,…….w r, wówczas średnia arytmetyczna całej zbiorowości (populacji) jest równa średniej ważonej średnich arytmetycznych ( gdzie j = 1,2,…r) podgrup (podpopulacji), z wagami w j : Jeżeli zbiorowość (populację) liczącą n elementów podzielimy na r podgrup (podpopulacji) o liczebnościach w 1, w 2, w 3,…….w r, wówczas średnia arytmetyczna całej zbiorowości (populacji) jest równa średniej ważonej średnich arytmetycznych ( gdzie j = 1,2,…r) podgrup (podpopulacji), z wagami w j :

21 Właściwości średniej arytmetycznej Jeśli zmniejszymy każdy wariant cechy x i o stałą c, to średnia arytmetyczna też ulegnie zmniejszeniu o stałą c: Jeśli zmniejszymy każdy wariant cechy x i o stałą c, to średnia arytmetyczna też ulegnie zmniejszeniu o stałą c:

22 Właściwości średniej arytmetycznej Jeśli pomnożymy każdy wariant cechy x i przez stałą c, to nowa średnia arytmetyczna będzie c – krotnością średniej pierwotnej: Jeśli pomnożymy każdy wariant cechy x i przez stałą c, to nowa średnia arytmetyczna będzie c – krotnością średniej pierwotnej:

23 Właściwości średniej arytmetycznej Jeśli od każdego wariantu x i odejmiemy średnią arytmetyczną wówczas suma tych różnic jest równa zeru: Jeśli od każdego wariantu x i odejmiemy średnią arytmetyczną wówczas suma tych różnic jest równa zeru: Powyższą własność formułujemy często w innej formie: suma odchyleń od średniej arytmetycznej jest równa zeru: Powyższą własność formułujemy często w innej formie: suma odchyleń od średniej arytmetycznej jest równa zeru:

24 Właściwości średniej arytmetycznej Suma kwadratów odchyleń wartości zmiennych badanej cechy od średniej arytmetycznej rozkładu jest najmniejsza Suma kwadratów odchyleń wartości zmiennych badanej cechy od średniej arytmetycznej rozkładu jest najmniejsza Oznacza to, że suma kwadratów odchyleń poszczególnych wartości zmiennych badanej cechy od jakiejkolwiek innej wartości zmiennej rozkładu, różnej od średniej, będzie zawsze większa Oznacza to, że suma kwadratów odchyleń poszczególnych wartości zmiennych badanej cechy od jakiejkolwiek innej wartości zmiennej rozkładu, różnej od średniej, będzie zawsze większa

25 Ograniczenia w stosowaniu średniej arytmetycznej

26 Niejednokrotnie średnia arytmetyczna nie może być uznana za wielkość reprezentatywną dla całego danego zbioru, w sensie wyrażania tendencji centralnej, jej wartość poznawcza jest niewielka (lub nawet żadna), a niekiedy wprowadza po prostu w błąd Niejednokrotnie średnia arytmetyczna nie może być uznana za wielkość reprezentatywną dla całego danego zbioru, w sensie wyrażania tendencji centralnej, jej wartość poznawcza jest niewielka (lub nawet żadna), a niekiedy wprowadza po prostu w błąd

27 Ograniczenia w stosowaniu średniej arytmetycznej A.W przypadku, gdy przedziały klasowe są otwarte (górny i dolny lub jeden z nich). a) gdy liczebności przedziałów otwartych są stosunkowo nieliczne, można je zamknąć i umownie ustalić środek przedziału; a) gdy liczebności przedziałów otwartych są stosunkowo nieliczne, można je zamknąć i umownie ustalić środek przedziału; b) gdy udział liczebności przedziałów otwartych w ogólnej sumie liczebności jest znaczny, rezygnujemy z obliczania średniej b) gdy udział liczebności przedziałów otwartych w ogólnej sumie liczebności jest znaczny, rezygnujemy z obliczania średniej

28 Ograniczenia w stosowaniu średniej arytmetycznej B. Gdy największe liczebności skupiają się zdecydowanie wokół najniższych lub najwyższych wartości cechy (szereg jest skrajnie asymetryczny).

29 Ograniczenia w stosowaniu średniej arytmetycznej C. Wartość poznawcza średniej jest żadna, wówczas, gdy ustalamy średnią ze zbiorów niejednorodnych

30 Ograniczenia w stosowaniu średniej arytmetycznej D. Obliczanie średniej mija się z celem również w tych szeregach, które dają rozkłady z kilkoma skupiskami dominującymi (są to tzw. szeregi wielomodalne) Rys. Rozkład dwumodalny

31 W większości przypadków rozkłady cech mierzalnych (zwanych zmiennymi) charakteryzują się pewną tendencja centralną, która polega na tym, że w miarę wzrostu liczebności (częstości) zmniejszają się różnice pomiędzy wartościami zmiennej a wartością centralną. W większości przypadków rozkłady cech mierzalnych (zwanych zmiennymi) charakteryzują się pewną tendencja centralną, która polega na tym, że w miarę wzrostu liczebności (częstości) zmniejszają się różnice pomiędzy wartościami zmiennej a wartością centralną. Rozkłady, które nie odpowiadają temu warunkowi, nie powinny być opisywane za pomocą wartości średniej. Rozkłady, które nie odpowiadają temu warunkowi, nie powinny być opisywane za pomocą wartości średniej.

32 rozkłady skrajnie asymetryczne rozkłady skrajnie asymetryczne

33 Średnia geometryczna

34 Średnią geometryczną n liczb jest pierwiastek stopnia n z iloczynu tych liczb. Wykorzystywana jest do badania zbiorowości, w których wartości jednostek są przedstawiane w liczbach względnych Wykorzystywana jest do badania zbiorowości, w których wartości jednostek są przedstawiane w liczbach względnych

35 Mediana

36 Mediana odpowiada środkowi zbioru danych, w którym to zbiorze wartości cechy uporządkowano kolejno od najmniejszej do największej (czyli według rosnącej wartości cechy). Mediana odpowiada środkowi zbioru danych, w którym to zbiorze wartości cechy uporządkowano kolejno od najmniejszej do największej (czyli według rosnącej wartości cechy).

37 cecha jest skokowa cecha jest skokowa jeśli liczba obserwacji n jest liczbą nieparzystą, mediana jest wartością, którą przybiera 0,5(n+1) jednostka liczebności populacji (obserwacja środkowa): jeśli liczba obserwacji n jest liczbą nieparzystą, mediana jest wartością, którą przybiera 0,5(n+1) jednostka liczebności populacji (obserwacja środkowa): jeśli liczba obserwacji n jest liczbą parzystą, mediana jest średnią arytmetyczną wartości cechy dwóch sąsiadujących jednostek o numerach porządkowych 0,5n oraz 0,5(n+2): jeśli liczba obserwacji n jest liczbą parzystą, mediana jest średnią arytmetyczną wartości cechy dwóch sąsiadujących jednostek o numerach porządkowych 0,5n oraz 0,5(n+2):

38 cecha jest ciągła cecha jest ciągła wtedy szereg rozdzielczy jest pod postacią klasowych przedziałów odmian cechy i wówczas kumulacja liczebności wskazuje tylko klasę, w której znajduje się mediana wtedy szereg rozdzielczy jest pod postacią klasowych przedziałów odmian cechy i wówczas kumulacja liczebności wskazuje tylko klasę, w której znajduje się mediana wyznaczenie mediany wymaga posłużenia się wzorem interpolacyjnym: wyznaczenie mediany wymaga posłużenia się wzorem interpolacyjnym: gdzie: gdzie: x m0 –dolna granica klasy mediany x m0 –dolna granica klasy mediany h m –rozpiętość przedziału klasy mediany h m –rozpiętość przedziału klasy mediany n m – liczebność przedziału klasy dominanty n m – liczebność przedziału klasy dominanty

39 medianę M( X ) można zdefiniować jako taką wartość cechy, że prosta pionowa przechodząca przez nią dzieli obszar pod krzywą na dwie równe części medianę M( X ) można zdefiniować jako taką wartość cechy, że prosta pionowa przechodząca przez nią dzieli obszar pod krzywą na dwie równe części w praktyce medianę obliczamy w sytuacji, gdzie jedna lub kilka wartości leży daleko od środka zbioru w praktyce medianę obliczamy w sytuacji, gdzie jedna lub kilka wartości leży daleko od środka zbioru mediana ma często zastosowanie w ekonomii w rozkładach dochodów mediana ma często zastosowanie w ekonomii w rozkładach dochodów Uwaga!!! Uwaga!!! mediana ma sens tylko wtedy, gdy zbiór danych jest uporządkowany rosnąco lub malejąco. mediana ma sens tylko wtedy, gdy zbiór danych jest uporządkowany rosnąco lub malejąco.

40 przykład przykład Sprzedaż filmowych kaset video ma ograniczenia czasowe (na ekrany wchodzą coraz to nowsze filmy i stare szybko schodzą z ekranów kin). Sprzedaż filmowych kaset video ma ograniczenia czasowe (na ekrany wchodzą coraz to nowsze filmy i stare szybko schodzą z ekranów kin). Właściciel musi decydować rozsądnie, z jakimi filmami nabyć taśmy. W tej sytuacji miary: - średnia i mediana – nie będą jemu pomocne. Zamiast tego, właścicielowi potrzebna jest wiedza na temat, które filmy są najbardziej popularne i cieszą się największym zainteresowaniem, a zatem które filmy prawdopodobnie będą sprzedawać się najlepiej.

41 Dominanta (moda)

42 charakterystyczne własności dominanty dominanta znajduje zastosowanie wówczas, gdy chcemy jedną liczbą wyrazić wartość cechy najbardziej typową i najczęściej występującą dominanta znajduje zastosowanie wówczas, gdy chcemy jedną liczbą wyrazić wartość cechy najbardziej typową i najczęściej występującą istnieje możliwość stosowania dominanty w przypadku analizy cech mierzalnych i niemierzalnych istnieje możliwość stosowania dominanty w przypadku analizy cech mierzalnych i niemierzalnych dla cechy niemierzalnej dominantą jest ten wariant cechy, która ma największą częstość występowania w badanej zbiorowości dla cechy niemierzalnej dominantą jest ten wariant cechy, która ma największą częstość występowania w badanej zbiorowości dominanta jest jedyną miarą przeciętną, która można wyznaczyć dla cech niemierzalnych dominanta jest jedyną miarą przeciętną, która można wyznaczyć dla cech niemierzalnych

43 charakterystyczne własności dominanty jest również możliwe - dla dużych liczebności i odpowiadającym im różnym wartościom - więcej niż jedna dominanta (moda); jest również możliwe - dla dużych liczebności i odpowiadającym im różnym wartościom - więcej niż jedna dominanta (moda); zbiór z 2-oma modami nazywamy dwumodalnym, zbiory z 3-ema modami trzymodalnymi; zbiór z 2-oma modami nazywamy dwumodalnym, zbiory z 3-ema modami trzymodalnymi; zbiory mające powyżej 2 mód zwą się wielomodalnymi; zbiory mające powyżej 2 mód zwą się wielomodalnymi; w diametralnie różnym przypadku, gdy każda wartość w zbiorze występuje tylko raz – zbiór nie ma mody. w diametralnie różnym przypadku, gdy każda wartość w zbiorze występuje tylko raz – zbiór nie ma mody.

44 w przypadku, kiedy wartości zmiennej pogrupowane są w szereg rozdzielczy sposób wyznaczanie dominanty (mody) w oparciu o jej definicję nie może być zastosowany w przypadku, kiedy wartości zmiennej pogrupowane są w szereg rozdzielczy sposób wyznaczanie dominanty (mody) w oparciu o jej definicję nie może być zastosowany analizując liczebności poszczególnych klas można określić przedział wartości cechy, który dominuje w badanej zbiorowości. Nie wiadomo jednak, która wartość dominuje w badanej zbiorowości analizując liczebności poszczególnych klas można określić przedział wartości cechy, który dominuje w badanej zbiorowości. Nie wiadomo jednak, która wartość dominuje w badanej zbiorowości dominantę (modę) wyznacza się wówczas w sposób przybliżony poprzez interpolację jej wartości z przedziału klasowego dominantę (modę) wyznacza się wówczas w sposób przybliżony poprzez interpolację jej wartości z przedziału klasowego

45 metoda obliczania dominanty Metoda interpolacyjna polega na obliczeniu dominanty według wzoru: Metoda interpolacyjna polega na obliczeniu dominanty według wzoru: lub: lub: gdzie: gdzie: D x 0 - dolna granica przedziału dominującego; D x 0 - dolna granica przedziału dominującego; n D - liczebność (częstości względne) przedziału dominującego; n D - liczebność (częstości względne) przedziału dominującego; n D-1 - liczebność (częstości względne) przedziału poprzedzającego przedział dominujący; n D-1 - liczebność (częstości względne) przedziału poprzedzającego przedział dominujący; n D+1 - liczebność (częstości względne) przedziału następującego po przedziale dominującym; n D+1 - liczebność (częstości względne) przedziału następującego po przedziale dominującym; h D - rozpiętość przedziału dominującego. h D - rozpiętość przedziału dominującego.

46 Uwaga!!! obliczając dominantę (modę) należy pamiętać o tym, że: w szeregu rozdzielczym może występować jedno wyraźnie zaznaczone maksimum (tzn. rozkład empiryczny jest jednomodalny); w szeregu rozdzielczym może występować jedno wyraźnie zaznaczone maksimum (tzn. rozkład empiryczny jest jednomodalny); przedział dominanty (mody) oraz dwa sąsiadujące z nim przedziały muszą mieć takie same rozpiętości (szerokości); przedział dominanty (mody) oraz dwa sąsiadujące z nim przedziały muszą mieć takie same rozpiętości (szerokości); jeśli dominanta w szeregu rozdzielczym występuje w skrajnych przedziałach klasowych, wówczas nie oblicza się jej według wzoru interpolacyjnego jeśli dominanta w szeregu rozdzielczym występuje w skrajnych przedziałach klasowych, wówczas nie oblicza się jej według wzoru interpolacyjnego

47 Średnie pozycyjne wyższych rzędów

48 W statystyce często używane są: percentyle – dzielimy całkowitą liczebność na 100 części ( a=100 elementów, b=99 percentyli ) percentyle – dzielimy całkowitą liczebność na 100 części ( a=100 elementów, b=99 percentyli ) decyle – całkowitą liczebność dzielimy na 10 części (a=10 elementów, b=9 decyli) decyle – całkowitą liczebność dzielimy na 10 części (a=10 elementów, b=9 decyli) kwartyle – całkowitą liczebność dzielimy na 4 części (a=4 elementy, b=3 kwartyle) kwartyle – całkowitą liczebność dzielimy na 4 części (a=4 elementy, b=3 kwartyle) kwintyle - całkowitą liczebność dzielimy na 5 części (a=5 elementów, b=4 kwintyle) kwintyle - całkowitą liczebność dzielimy na 5 części (a=5 elementów, b=4 kwintyle)

49 k-ty percentyl zbioru danych uporządkowanych rosnąco jest to wartość x mająca tę własność, że k procent liczebności zbioru leży na lub poniżej wartości x k-ty percentyl zbioru danych uporządkowanych rosnąco jest to wartość x mająca tę własność, że k procent liczebności zbioru leży na lub poniżej wartości x

50 Przy dzieleniu zbiorowości statystycznej na a równych elementów i uzyskiwaniu b = a-1 charakterystyk korzystamy z formuły: Przy dzieleniu zbiorowości statystycznej na a równych elementów i uzyskiwaniu b = a-1 charakterystyk korzystamy z formuły: gdzie: gdzie: Q a,b – symbol przeciętnej pozycyjnej Q a,b – symbol przeciętnej pozycyjnej x q0 –dolna granica przedziału, w której znajduje się poszukiwana przeciętna pozycyjna x q0 –dolna granica przedziału, w której znajduje się poszukiwana przeciętna pozycyjna h q –rozpiętość przedziału klasy liczonej przeciętnej pozycyjnej h q –rozpiętość przedziału klasy liczonej przeciętnej pozycyjnej n q – liczebność klasy liczonej przeciętnej pozycyjnej n q – liczebność klasy liczonej przeciętnej pozycyjnej

51 Kwartyle kwartyle to takie wartości cechy Q 4,1, Q 4,2 i Q 4,3, że ¼ obserwacji leży poniżej Q 4,1, ¼ powyżej Q 4,3, ¼ obserwacji leży między Q 4,1 a medianą a ¼ obserwacji leży między medianą a Q 4,3. kwartyle to takie wartości cechy Q 4,1, Q 4,2 i Q 4,3, że ¼ obserwacji leży poniżej Q 4,1, ¼ powyżej Q 4,3, ¼ obserwacji leży między Q 4,1 a medianą a ¼ obserwacji leży między medianą a Q 4,3. wielkość Q 4,1 zwana jest kwartylem dolnym a Q 4,3 kwartylem górnym. wielkość Q 4,1 zwana jest kwartylem dolnym a Q 4,3 kwartylem górnym.

52 Uwaga! Posługiwanie się przeciętnymi pozycyjnymi wyższych rzędów ma sens tylko wówczas, gdy liczebność zbiorowości statystycznej jest znaczna. Posługiwanie się przeciętnymi pozycyjnymi wyższych rzędów ma sens tylko wówczas, gdy liczebność zbiorowości statystycznej jest znaczna.


Pobierz ppt "Charakterystyki opisowe rozkładu jednej cechy Wykład 3 dr Małgorzata Radziukiewicz."

Podobne prezentacje


Reklamy Google