STATYSTYKA OPISOWA WYKŁADY.

Slides:



Advertisements
Podobne prezentacje
Proces doboru próby. Badana populacja – (zbiorowość generalna, populacja generalna) ogół rzeczywistych jednostek, o których chcemy uzyskać informacje.
Advertisements

Ekonometria stosowana WYKŁAD 4 Piotr Ciżkowicz Katedra Międzynarodowych Studiów Porównawczych.
Analiza rozkładu empirycznego dr Marta Marszałek Zakład Statystyki Stosowanej Instytut Statystyki i Demografii Kolegium.
STATYSTYKA MATEMATYCZNA wykład 1 - wprowadzenie Dr Aldona Migała-Warchoł.
Ekonometria stosowana Autokorelacja Piotr Ciżkowicz Katedra Międzynarodowych Studiów Porównawczych.
Niepewności pomiarowe. Pomiary fizyczne. Pomiar fizyczny polega na porównywaniu wielkości mierzonej z przyjętym wzorcem, czyli jednostką. Rodzaje pomiarów.
Ćwiczenia Zarządzanie Ryzykiem Renata Karkowska, ćwiczenia „Zarządzanie ryzykiem” 1.
Cel analizy statystycznej. „Człowiek –najlepsza inwestycja”
Ryzyko a stopa zwrotu. Standardowe narzędzia inwestowania Analiza fundamentalna – ocena kondycji i perspektyw rozwoju podmiotu emitującego papiery wartościowe.
Klasyczny model regresji liniowej (KMRL) Zakład Statystyki Stosowanej Instytut Statystyki i Demografii Kolegium Analiz Ekonomicznych Szkoła Główna Handlowa.
Analiza wariancji (ANOVA) Zakład Statystyki Stosowanej Instytut Statystyki i Demografii Kolegium Analiz Ekonomicznych Szkoła Główna Handlowa w Warszawie.
Zmienne losowe Zmienne losowe oznacza się dużymi literami alfabetu łacińskiego, na przykład X, Y, Z. Natomiast wartości jakie one przyjmują odpowiednio.
Analiza tendencji centralnej „Człowiek – najlepsza inwestycja”
Równowaga rynkowa w doskonałej konkurencji w krótkim okresie czasu Równowaga rynkowa to jest stan, kiedy przy danej cenie podaż jest równa popytowi. p.
Funkcja liniowa Przygotował: Kajetan Leszczyński Niepubliczne Gimnazjum Przy Młodzieżowym Ośrodku Wychowawczym Księży Orionistów W Warszawie Ul. Barska.
© Prof. Antoni Kozioł, Wydział Chemiczny Politechniki Wrocławskiej MATEMATYCZNE MODELOWANIE PROCESÓW BIOTECHNOLOGICZNYCH Prezentacja – 4 Matematyczne opracowywanie.
STATYSTYKA – kurs podstawowy wykład 10 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.
ANALIZA DANYCH DO OPRACOWANIA MAP TEMATYCZNYCH HALINA KLIMCZAK INSTYTUT GEODEZJI I GEOINFORMATYKI UNIWERSYTET PRZYRODNICZY WE WROCŁAWIU.
W KRAINIE TRAPEZÓW. W "Szkole Myślenia" stawiamy na umiejętność rozumowania, zadawania pytań badawczych, rozwiązywania problemów oraz wykorzystania wiedzy.
Metoda kartogramów. Definicja Metoda służy do przedstawiania średniej intensywności zjawiska w granicach określonych pól odniesienia. Wartości obliczane.
Metody Analizy Danych Doświadczalnych Wykład 9 ”Estymacja parametryczna”
Skuteczności i koszty windykacji polubownej Wyniki badań zrealizowanych w ramach grantu Narodowego Centrum Nauki „Ocena poziomu rzeczywistej.
BADANIA STATYSTYCZNE. WARUNKI BADANIA STATYSTYCZNEGO musi dotyczyć zbiorowościstatystycznej musi określać prawidłowościcharakteryzujące całą zbiorowość.
Optymalna wielkość produkcji przedsiębiorstwa działającego w doskonałej konkurencji (analiza krótkookresowa) Przypomnijmy założenia modelu doskonałej.
Metody sztucznej inteligencji - Technologie rozmyte i neuronowe 2015/2016 Perceptrony proste nieliniowe i wielowarstwowe © Kazimierz Duzinkiewicz, dr hab.
Definiowanie i planowanie zadań typu P 1.  Planowanie zadań typu P  Zadania typu P to zadania unikalne służące zwykle dokonaniu jednorazowej, konkretnej.
Zmienna losowa dwuwymiarowa Dwuwymiarowy rozkład empiryczny Zakład Statystyki Stosowanej Instytut Statystyki i Demografii Kolegium Analiz Ekonomicznych.
1 Definiowanie i planowanie zadań budżetowych typu B.
Dorota Kwaśniewska OBRAZY OTRZYMYWA NE W SOCZEWKAC H.
Regresja. Termin regresja oznacza badanie wpływu jednej lub kilku zmiennych tzw. objaśniających na zmienną, której kształtowanie się najbardziej nas interesuje,
Budżetowanie kapitałowe cz. III. NIEPEWNOŚĆ senesu lago NIEPEWNOŚĆ NIEMIERZALNA senesu strice RYZYKO (niepewność mierzalna)
Ogólnopolska Konferencja Naukowa Finanse – Statystyka – Badania Empiryczne 26 październik 2016 rok Wrocław Katedra Prognoz i Analiz Gospodarczych Uniwersytet.
O PARADOKSIE BRAESSA Zbigniew Świtalski Paweł Skałecki Wydział Matematyki, Informatyki i Ekonometrii Uniwersytet Zielonogórski Zakopane 2016.
Test analizy wariancji dla wielu średnich – klasyfikacja pojedyncza
Katedra Międzynarodowych Studiów Porównawczych
System wspomagania decyzji DSS do wyznaczania matematycznego modelu zmiennej nieobserwowalnej dr inż. Tomasz Janiczek.
terminologia, skale pomiarowe, przykłady
Norma prawna.
MATEMATYCZNE MODELOWANIE PROCESÓW BIOTECHNOLOGICZNYCH
Przywiązanie partnerów a ich kompetencje społeczne
Oczekiwana przez inwestora stopa dochodu
Prowadzący: dr Krzysztof Polko
FIGURY.
Małgorzata Podogrodzka, SGH ISiD
Modele SEM założenia formalne
Podstawy automatyki I Wykład /2016
Pojedyńczy element, mała grupa
Opracowała: Monika Grudzińska - Czerniecka
Cechy charakterystyczne stosunków administracyjnoprawnych
Małgorzata Podogrodzka, SGH ISiD
Elementy fizyki kwantowej i budowy materii
Podstawy teorii zachowania konsumentów
Analiza rozkładu empirycznego
Tensor naprężeń Cauchyego
REGRESJA I KORELACJA.
Porównywanie średnich prób o rozkładach normalnych (testy t-studenta)
FORMUŁOWANIE HIPOTEZ STATYSTYCZNYCH
Implementacja rekurencji w języku Haskell
Doskonalenie rachunku pamięciowego u uczniów
REGRESJA WIELORAKA.
Wyrównanie sieci swobodnych
Analiza zależności pomiędzy zmiennymi losowymi (danymi empirycznymi)
ROZKŁADY STATYSTYCZNE ZMIENNYCH MIERZALNYCH
Prawa ruchu ośrodków ciągłych c. d.
Program na dziś Wprowadzenie Logika prezentacji i artykułu
WYBRANE ZAGADNIENIA PROBABILISTYKI
Wiesław Niebudek 7 grudnia 2017r.
Zapis prezentacji:

STATYSTYKA OPISOWA WYKŁADY

WPROWADZENIE Wyraz statystyka pochodzi od łacińskiego słowa status, co oznacza stan, położenie, stosunki (w języku włoskim stato oznacza państwo) i użyty został przez G. Achenwalla dla oznaczenia nauki o „osobliwościach państwowych”, zwanej państwoznastwem. Statystyka to zbiór metod służących pozyskiwaniu, prezentacji i analizie danych. Inna definicja: statystyka to nauka traktująca o metodach ilościowych badania zjawisk masowych. Zjawisko masowe to takie zjawisko, które badane w dużej masie zdarzeń wskazuje właściwą sobie prawidłowość, jakiej nie można zaobserwować w pojedynczym przypadku. Przykłady zjawisk masowych: spożycie pewnych artykułów na 1 mieszkańca, urodzenia itp.

Statystyka: a) umożliwia dokładniejszy sposób opisu interesującej nas rzeczywistości, b) zmusza nas do dokładności i śmiałości w działaniu i rozumowaniu, c) umożliwia formułowanie uogólnień na podstawie uzyskanych wyników analizy, d) pozwala na przewidywanie rozwoju zjawisk w przyszłości, czyli pobudzanie do prognoz, e) dostarcza narzędzi do porządkowania informacji o zjawiskach – a przez to pozwala na budowę ich ogólnego obrazu, f) dostarcza narzędzi do prowadzenia analizy przyczyn kształtujących badane zjawiska i procesy, a więc umożliwia dokonanie ich klasyfikacji na czynniki systematyczne i przypadkowe.

Powstaje pytanie: dlaczego w zbiorze wielu zdarzeń zachodzą prawidłowości statystyczne podczas, gdy poszczególne zdarzenia są zróżnicowane? Otóż każde zjawisko (ekonomicznej, przyrodnicze, socjologiczne itp.) kształtuje się pod wpływem dwojakiego rodzaju przyczyn: głównych (podstawowych, typowych, systematycznych). ubocznych (przypadkowych, indywidualne). Ad 1) Przyczyny główne oddziałują na każde zjawisko w sposób jednakowy, mają charakter wewnętrzny, ich istota wypływa z charakteru zjawiska – działają w ściśle określonym kierunku. Przyczyny te są wspólne dla wszystkich jednostek badanej zbiorowości zdarzeń (wpływ czynników głównych). Ad 2) Przyczyny uboczne działają na każde zjawisko w sposób odmienny. Wyrażają zróżnicowanie osobnicze (wpływ czynnika losowego).

Ostatecznym celem stosowania tych metod jest otrzymanie użytecznych informacji na temat zjawiska, którego dotyczą. Istotne jest, aby badania statystyczne były zaplanowane w sposób nie budzący zastrzeżeń. Ich cel powinien być określony zrozumiale i szczegółowo. Materiał statystyczne powinien zaś być wiarygodny i przejrzysty.

Cel badania jest możliwy do osiągnięcia wówczas, gdy jednostki statystyczne są precyzyjnie określone pod względem: rzeczowym (przedmiot badań), przestrzennym (miejsce badań), czasowym (okres badań).

ZBIOROWOŚĆ I CECHY STATYSTYCZNE Zbiorowość statystyczna (populacja) to zbiór dowolnych elementów objętych badaniem statystycznym. Wyodrębniona część zbiorowości nosi nazwę próby statystycznej. Elementy badanej zbiorowości określane są mianem jednostek statystycznych. Właściwości tych jednostek nazywane są cechami statystycznymi.

CECHY STATYSTYCZNE: STAŁE (wspólne wszystkim jednostkom badanej zbiorowości). Nie podlegają badaniu a jedynie decydują o zaliczeniu jednostek do określonej zbiorowości. ZMIENNE (podlegają badaniom).

Cechy statystycznie zmienne: ilościowe jakościowe skokowe ciągłe

Badania statystyczne: pełne częściowe spisy rejestracja bieżąca sprawozdawczość

Badania statystyczne: ciągłe okresowe doraźne

Metody prezentacji danych statystycznych: Szeregi statystyczne. Tablice statystyczne. Wykresy statystyczne.

(ze względu na budowę): Szeregi statystyczne (ze względu na budowę): szczegółowe rozdzielcze kumulacyjne

Szeregi statystyczne (ze względu na cechy): czasowe przestrzenne

WYKRESY STATYSTYCZNE: LINIOWY

WYKRESY STATYSTYCZNE: BRYŁOWY

WYKRESY STATYSTYCZNE: SŁUPKOWY

WYKRESY STATYSTYCZNE: KOŁOWY

WYKRESY STATYSTYCZNE: PUNKTOWY

WYKRESY STATYSTYCZNE: WARTSTWOWY

WYKRESY STATYSTYCZNE: PIERŚCIENIOWY

ANALIZA STRUKTURY ZJAWISK MASOWYCH Rozkładem empirycznym określa się przyporządkowanie poszczególnym wartościom zmiennej xi odpowiadających im liczebności ni. W określaniu rozkładu empirycznego zamiast liczebności ni stosuje się częstości względne określone wzorem: przy czym:

TYPY ROZKŁADÓW EMPIRYCZNYCH

OPISOWE CHARAKTERYSTYKI ROZKŁADÓW Przeprowadzając analizę struktury zjawisk masowych należy zbadać: tendencję centralną, czyli tzw. przeciętny poziom Zróżnicowanie wartości, czyli tzw. dyspersję (zmienność, rozproszenie) asymetrię rozkładu (skośność) koncentrację. Do przeprowadzenia tych badań wykorzystuje się charakterystyki nazywane parametrami. Charakterystyki opisowe to liczby (wielkości), które pozwalają w sposób syntetyczny określić właściwości badanych rozkładów.

MIARY ŚREDNIE (PRZECIĘTNE) Miary średnie pozwalają określić tendencję centralną. Służą do określania tej wartości zmiennej, wokół której kupiają się wszystkie pozostałe zmienne. Podział średnich: Średnie klasyczne. Średnie pozycyjne. Do średnich klasycznych zalicza się średnie: arytmetyczną geometryczną harmoniczną.

Średnia arytmetyczna to suma wartości zmiennej wszystkich jednostek badanej zbiorowości podzielona przez liczbę tych jednostek: gdzie: xi – wartość cechy, n – liczebność próby

Jeżeli wartości zmiennej występują z różną częstotliwością, wówczas wylicza się średnią arytmetyczną ważoną (wagami są liczebności odpowiadające poszczególnym wartościom): gdzie:

W przypadku danych zgrupowanych w szereg rozdzielczy przedziałowy wzór na średnią arytmetyczną jest następujący: gdzie: - środek i-tego przedziału klasowego. Jeżeli zamiast liczebności wykorzystywane są częstości wi , wzór na średnią arytmetyczną przyjmuje postać:

Średnia arytmetyczna jest miarą prawidłową jedynie w odniesieniu do zbiorowości jednorodnych, o niewielkim zróżnicowaniu wartości zmiennej. Średniej tej nie należy stosować w przypadku rozkładów skrajnie asymetrycznych, bimodalnych i wielomodalnych. Nie oblicza się jej również w przypadkach, gdy w zbiorowości występują wartości skrajne. Ponadto, średniej arytmetycznej nie należy stosować dla szeregu o otwartych przedziałach, jeżeli przedziały te charakteryzują się dużą liczebnością.

Średnia harmoniczna jest odwrotnością średniej arytmetycznej z odwrotności wartości zmiennych. W przypadku szeregów szczegółowych (wyliczających) średnią harmoniczną liczy się ze wzoru:

Dla szeregów rozdzielczych punktowych średnią harmoniczną liczy się z uwzględnieniem wag, tzn:

Dla szeregów rozdzielczych przedziałowych średnią harmoniczną liczy się następująco: Średnią harmoniczną stosuje się wówczas, gdy wartości zmiennej podane są w jednostkach względnych.

Średnia geometryczna jest pierwiastkiem n-tego stopnia z iloczynu n zmiennych: gdzie: - znak iloczynu.

W przypadku, gdy wartości zmiennej występują z różną częstotliwością, średnią geometryczną wylicza się z wykorzystaniem następującej formuły: gdzie:

Średnią geometryczną stosuje się w przypadkach, gdy wartości zmiennej tworzą postęp geometryczny lub w przypadku rozkładu skrajnie asymetrycznego. Średnia ta ma zastosowanie przy badaniu średniego tempa zmian. Średniej geometrycznej nie należy stosować, jeżeli którakolwiek z wartości zmiennej jest ujemna lub równa zeru!!!

ŚREDNIE POZYCYJNE Najczęściej wykorzystywanymi średnimi pozycyjnymi są: dominanta (moda, wartość najczęstsza) oraz mediana (wartość środkowa). Dominantą nazywa się taką wartość zmiennej, nie będącą ani najmniejsza ani największą, która w danym rozkładzie empirycznym występuje najczęściej.

W szeregach rozdzielczych punktowych jest tą wartością cechy, której odpowiada największa liczebność. W szeregach rozdzielczych przedziałowych bezpośrednio można wyznaczyć wyłącznie przedział zwany przedziałem dominanty (jest to przedział o największej liczebności).

Wartość dominanty wyznacza się ze wzoru: gdzie: - dominanta - dolna granica przedziału dominanty - liczebność przedziału dominanty - liczebność przedziału poprzedzającego przedział dominanty - liczebność przedziału następującego po przedziale - interwał (rozpiętość) przedziału dominanty.

Dla szeregów rozdzielczych przedziałowych dominantę można również wyznaczyć metodą graficzną, która polega na wykreśleniu histogramu liczebności z trzech przedziałów klasowych: przedziału dominanty oraz dwóch przedziałów sąsiednich. Wyznaczanie dominanty jest uzasadnione wówczas, gdy szereg spełnia następujące warunki: rozkład empiryczny jest rozkładem jednomodalnym, asymetria rozkładu jest umiarkowana, przedział dominanty i przedziały sąsiednie mają jednakowe rozpiętości.

Medianą określa się taką wartość cechy, że co najmniej połowa jednostek ma wartość cechy nie większą niż i co najmniej połowa ma wartość nie mniejszą niż . Medianą jest wartość cechy, którą posiada środkowa jednostka w uporządkowanym rosnąco ciągu elementów zbiorowości.

Zatem:

W przypadku szeregu rozdzielczego przedziałowego medianę wyznacza się metodą graficzną lub rachunkową. W metodzie graficznej wykorzystuje się wykres krzywej liczebności skumulowanej. Jeżeli dane są przedstawione za pomocą szeregu rozdzielczego punktowego (cecha skokowa) – medianą jest pierwsza wartość, której odpowiada co najmniej połowa skumulowanej liczebności.

Jeżeli mamy do czynienia z szeregiem rozdzielczym klasowym (dla cechy ciągłej) medianę można wyznaczyć wykorzystując wzór: gdzie: - liczebność i-tej klasy - liczebność zbiorowości (próby) - numer klasy zawierającej medianę - dolna granica przedziału, w którym znajduje się mediana - interwał (rozpiętość) przedziału mediany - liczebność przedziału mediany.

Jeżeli mamy do czynienia z szeregiem rozdzielczym klasowym (dla cechy ciągłej) medianę można wyznaczyć wykorzystując wzór:

MIARY ZMIENNOŚCI Główne (wywołujące zmienność systematyczną) Na zjawiska masowe oddziałują dwa rodzaje przyczyn: Główne (wywołujące zmienność systematyczną) Uboczne (wywołujące zmienność przypadkową) Przybliżonym miernikiem składnika systematycznego zbiorowości są miary przeciętne (średnie). Odchylenia wartości poszczególnych jednostek zbiorowości od wartości średniej powstają pod wpływem przyczyn przypadkowych (ubocznych).

Do pomiaru tych odchyleń wykorzystuje się miary zmienności (zróżnicowania, dyspersji, rozproszenia). Dyspersja to zróżnicowanie jednostek badanej zbiorowości ze względu na wartość badanej cechy statystycznej. Siłę dyspersji można oceniać za pomocą miar: Klasycznych Pozycyjnych. Punktem odniesienia w miarach klasycznych jest średnia arytmetyczna, zaś miary pozycyjne wyznaczane są przede wszystkim na podstawie kwartyli.

Odchylenie standardowe Odchylenie przeciętne (dewiata) Miary klasyczne: Wariancja Odchylenie standardowe Odchylenie przeciętne (dewiata) Współczynnik zmienności*. * - jeśli do jego wyliczenia wykorzystywana jest średnia arytmetyczna oraz odchylenie standardowe)

Odchylenie ćwiartkowe Współczynnik zmienności**. Miary pozycyjne: Empiryczny obszar zmienności (rozstęp, amplituda wahań, pole rozsiania) Odchylenie ćwiartkowe Współczynnik zmienności**. ** - jeśli do jego wyliczenia wykorzystywana jest mediana oraz odchylenie ćwiartkowe)

Najczęściej stosowane miary rozproszenia: Obszar zmienności Odchylenie przeciętne Wariancja Odchylenie standardowe Współczynnik zmienności.

Obszarem zmienności określa się różnicę pomiędzy największą a najmniejszą wartością zmiennej, tzn.: Miara ta ma niewielką wartość poznawczą, gdyż obszar zmienności uzależniony jest od wartości skrajnych, które często różnią się istotnie od wszystkich pozostałych wartości zmiennej. Na obszar zmienności wpływają tylko wartości skrajne, pozostałe zaś nie mają żadnego wpływu na wynik. Obszar zmienności wykorzystywany jest jedynie przy wstępnej ocenie rozproszenia.

Odchyleniem przeciętnym d nazywa się średnią arytmetyczną z bezwzględnych odchyleń wartości zmiennej x od średniej arytmetycznej. Odchylenie przeciętne wyznaczamy z następujących wzorów: dla szeregu szczegółowego: gdzie: n - liczebność badanej zbiorowości - wartości przyjmowane przez cechę mierzalną - średnia arytmetyczna badanej zbiorowości

dla szeregu rozdzielczego punktowego: dla szeregu rozdzielczego przedziałowego: gdzie: - środek i-tego przedziału klasowego

Wariancją określa się średnią arytmetyczną z sumy kwadratów odchyleń poszczególnych wartości cechy statystycznej od średniej arytmetycznej całej zbiorowości statystycznej. Wariancję wyznacza się z następujących wzorów: - dla szeregu szczegółowego:

dla szeregu rozdzielczego punktowego: dla szeregu rozdzielczego przedziałowego:

Podstawowe właściwości wariancji: Jest zawsze liczbą nieujemną Jest zawsze wielkością mianowaną, tzn. wyrażoną w jednostkach badanej cechy statystycznej. Miano wariancji zawsze jest kwadratem jednostki fizycznej, w jakiej mierzona jest badana cecha Im zbiorowość statystyczna jest bardziej zróżnicowana, tym wartość wariancji jest wyższa

4. Wariancja, jako miara dyspersji wykorzystywana dla szeregów rozdzielczych przedziałowych, daje zawsze wartości zawyżone. Przyczyna zawyżenia wartości wynika z faktu, iż w przypadku szeregów rozdzielczych przedziałowych korzysta się ze środków przedziałów. W celu zmniejszenia popełnionego błędu, przy obliczaniu wariancji w przypadku przedziałów o zbyt dużej rozpiętości (i), stosuje się tzw. poprawkę Shepparda. Wzór na wariancję przyjmuje wówczas postać:

Odchylenie standardowe jest pierwiastkiem kwadratowym z wariancji: gdzie: - odchylenie standardowe - wariancja. Odchylenie standardowe określa, o ile wszystkie jednostki statystyczne danej zbiorowości różnią się średnio od wartości średniej arytmetycznej badanej zmiennej.

W statystyce odchylenie standardowe wykorzystywane jest do tworzenia typowego obszaru zmienności statystycznej. W obszarze takim mieści się około 2/3 wszystkich jednostek badanej zbiorowości statystycznej. Typowy obszar zmienności określa wzór: Użyteczność kategorii typowego obszaru zmienności sprowadza się przede wszystkim do rozdziału jednostek statystycznych na typowe (tzn. występujące stosunkowo często) i nietypowe (tzn. występujące stosunkowo rzadko).

Z odchyleniem standardowym łączy się pojęcie zmiennej standaryzowanej (unormowanej) dla rozkładu empirycznego cechy mierzalnej :

Miary dyspersji (rozproszenia), jak i wartości średnie są liczbami mianowanymi. Fakt ten umożliwia bezpośrednie porównywania miar dyspersji obliczonych dla różnych szeregów. Jeżeli badane zjawisko mierzone jest w różnych jednostkach miary lub kształtuje się na niejednakowym poziomie, wówczas do oceny rozproszenia należy stosować współczynnik zmienności.

(zamiast może być inna średnia, np. mediana) Współczynnik zmienności jest ilorazem odchylenia przeciętnego lub odchylenia standardowego oraz średniej: lub (zamiast może być inna średnia, np. mediana) Współczynnik zmienności może być wyrażony w procentach. Współczynnik ten zastępuje bezwzględne miary dyspersji.

Współczynnik zmienności pozwala porównywać różne szeregi lub szeregi tego samego typu, ale o różnej strukturze. Umożliwia on dokonanie analiz zmienności w czasie i przestrzeni. Współczynnik zmienności (obok odchylenia standardowego) wykorzystywany jest jako miara ryzyka finansowego.

MIARY ASYMETRII (SKOŚNOŚCI) Szczegółowa analiza statystyczna powinna zawierać nie tylko poziom przeciętny i wewnętrzne zróżnicowanie zbiorowości. Istotne jest również określenie, czy przeważająca liczba jednostek znajduje się powyżej czy poniżej przeciętnego poziomu badanej cechy. Należy dokonać zatem oceny asymetrii rozkładu. W związku z tym określa się charakter (kierunek) oraz natężenie (rozmiar) skośności.

wykonania norm pracy, planów pracy, absencji w pracy, W zjawiskach społeczno-gospodarczych zwykle spotyka się skośność dodatnią (prawostronną). Skośność ta często występuje w badaniach: dochodów, wykonania norm pracy, planów pracy, absencji w pracy, wkładów oszczędnościowych, odległości przewozów osób, czy towarów.

Skośność dodatnia (prawostronna) ma miejsce wówczas, gdy dłuższe ramię krzywej charakteryzującej rozkład liczebności szeregu znajduje się po prawej stronie średniej. Jeżeli dłuższe ramię krzywej znajduje się po lewej stronie średniej, wówczas można mówić o skośności ujemnej (lewostronnej).

Inaczej: jeśli spełniona jest nierówność: to rozkład charakteryzuje się asymetrią prawostronną. Jeżeli natomiast: to można wówczas mówić o asymetrii lewostronnej.

Charakter asymetrii można również określać na podstawie punktów wyznaczonych przez dominantę, medianę i średnią arytmetyczną. W szeregu symetrycznym wszystkie miary pozycyjne są sobie równe. W szeregu asymetrycznym miary te kształtują się na różnym poziomie: im większa skośność, tym większe są różnice pomiędzy dominantą, medianą i średnią arytmetyczną.

Jednym z mierników skośności jest wskaźnik skośności (inaczej: bezwzględna miara skośności): Wskaźnik ten jest bezwzględną miarą asymetrii posiadającą miano badanej cechy. Z tego względu ma on ograniczone zastosowanie w analizie porównawczej. Poza tym, wskaźnik skośności określa jedynie kierunek asymetrii (prawo-, czy lewostronna) nie wskazując jej siły.

Miarą określającą zarówno kierunek jak i siłę asymetrii jest współczynnik skośności: Współczynnik ten przyjmuje zazwyczaj wartości z przedziału: <-1;1>. Jedynie przy bardzo silnej asymetrii wartość współczynnika może wykroczyć poza w/w przedział.

Jeżeli dany rozkład jest symetryczny, wówczas . W przypadku asymetrii prawostronnej: . Dla rozkładu o asymetrii lewostronnej: Im silniejsza jest asymetria rozkładu, tym wartość bezwzględna współczynnika skośności jest wyższa.

ANALIZA WSPÓŁZALEŻNOŚCI Analiza struktury zjawisk dotyczyła jednej cechy. W praktyce jednak bywa tak, że badane jednostki statystyczne charakteryzowane są przez kilka cech. Cechy te nie są od siebie odizolowane, mają na siebie wpływ oraz posiadają wzajemne uwarunkowania. Dlatego często zachodzi potrzeba badania współzależności między tymi cechami.

Przeprowadzając analizę można spotkać dwa rodzaje współzależności zmiennych: Współzależność funkcyjną, polegającą na tym, że zmiana wartości jednej zmiennej pociąga określoną zmianę wartości drugiej zmiennej. Współzależność stochastyczną (probabilistyczną), polegającą na tym, że wraz ze zmianą jednej zmiennej zmienia się rozkład prawdopodobieństwa drugiej zmiennej. Szczególnym przypadkiem zależności stochastycznej jest zależność korelacyjna.

Zależności korelacyjne zachodzą wówczas, gdy określonym wartościom jednej zmiennej odpowiadają ściśle określone średnie wartości drugiej zmiennej. Zdarzają się jednak sytuacje, w których nie istnieje współzależność (korelacja) ale ma miejsce zbieżność występowania zjawisk. Taką zbieżność określa się mianem korelacji pozornej.

Najczęściej spotykanymi metodami wykrywania związków korelacyjnych są: Metoda porównywania przebiegu szeregów statystycznych. Metoda graficzna.

Cechę dwuwymiarową oznacza się jako uporządkowaną parę (X,Y) Cechę dwuwymiarową oznacza się jako uporządkowaną parę (X,Y). Składowymi mogą być zarówno cechy ilościowe jak i jakościowe. To od tego, z jakimi cechami mamy do czynienia zależy wybór sposobu opisu współzależności. Podstawą analizy jest zbiorowość jednostek scharakteryzowanych parą własności, gdzie i=1,2,...,n. Badając zbiorowość jednostek pod względem wyróżnionych cech otrzymuje się ciąg par wartości:

MIARY WSPÓŁZALEŻNOŚCI Do badania zależności między zmiennymi X i Y wykorzystuje się najczęściej współczynnik korelacji liniowej Pearsona, będący miarą siły związku prostoliniowego między dwiema cechami mierzalnymi. Współczynnik ten wylicza się ze wzoru: gdzie: cov(x,y) - kowariancja zmiennych X i Y s - odchylenie standardowe.

Kowariancja jest średnią arytmetyczną iloczynu odchyleń zmiennych X i Y od ich średnich arytmetycznych: Rozpatrując kowariancję uzyskać można następujące informacje o istniejącym związku pomiędzy zmiennymi X i Y: Jeżeli cov(x,y)>0 – dodatnia korelacja Jeżeli cov(x,y)<0 – ujmena korelacja Jeżeli cov(x,y)=0 – brak korelacji

Kowariancji nie można stosować do bezpośrednich porównań Kowariancji nie można stosować do bezpośrednich porównań. Dlatego jest ona standaryzowana przez odchylenia standardowe, dzięki czemu otrzymuje się współczynnik korelacji liniowej Pearsona. Właściwości współczynnika korelacji: Przyjmuje wartości z przedziału <-1;1> Dodatni znak świadczy o dodatnim, zaś ujemny o ujemnym związku korelacyjnym Im tym związek korelacyjny jest silniejszy.

Sposoby komentowania współczynnika korelacji: - współzależność nie występuje, - słaby stopień współzależności, - umiarkowany (średni) stopień współzależności, - znaczny stopień współzależności, - wysoki stopień współzależności, - bardzo wysoki stopień - całkowita (ścisła) współzależność (zależność funkcyjna pomiędzy badanymi cechami).

Analizę współzależności należy uzupełnić o współczynnik determinacji, będący kwadratem współczynnika korelacji liniowej Pearsona ( ). Współczynnik determinacji informuje, jaka część zmiennej objaśnianej jest wyjaśniona przez zmienną objaśniającą. Przy pomocy tego współczynnika można wnioskować, czy na zmienną objaśniającą wpływają również inne czynniki, nie podlegające badaniu.

W sytuacji, gdy obserwacje statystyczne dotyczące badanych zmiennych są liczne, bazowanie na wartościach szczegółowych może być uciążliwe. W celu zapewnienia przejrzystości zebranych danych sporządza się wówczas tablicę korelacyjną. Na skrzyżowaniu kolumn z wierszami wpisuje się liczebności jednostek zbiorowości statystycznej, u których zaobserwowano jednoczesne występowanie określonych wartości i .

Schemat tablicy korelacyjnej:

W tablicy korelacyjnej zawarte są rozkłady brzegowe i warunkowe W tablicy korelacyjnej zawarte są rozkłady brzegowe i warunkowe. Rozkład brzegowy (por. ostatnia kolumna określa rozkład brzegowy cechy X, ostatni wiersz – rozkład brzegowy cechy Y) prezentuje strukturę wartości jednej zmiennej (X lub Y) bez względu na kształtowanie się wartości drugiej zmiennej. Rozkłady brzegowe i warunkowe mogą być scharakteryzowane pewnymi sumarycznymi wielkościami (najczęściej są to średnie arytmetyczne)

Średnie arytmetyczne z rozkładów brzegowych wyznacza się ze wzorów: Średnie arytmetyczne z rozkładów warunkowych oblicza się następująco:

W sytuacji, gdy wraz ze wzrostem (spadkiem) wartości jednej zmiennej następuje wzrost (spadek) warunkowych średnich drugiej zmiennej, wówczas można stwierdzić istnienie korelacji dodatniej między zmiennymi. W sytuacji, kiedy występuje przeciwny kierunek zmian, można mówić o korelacji ujemnej.

Jeżeli różnice pomiędzy średnimi są takie same, tzn.: wówczas związek między zmiennymi jest liniowy.

Innym miernikiem korelacyjnego związku cech jest współczynnik korelacji rang Spearmana. Współczynnik ten stosowany jest głównie do badania współzależności cech niemierzalnych, bądź cechy mierzalnej i niemierzalnej. Może być on również stosowany w badaniu związku korelacyjnego pomiędzy cechami mierzalnymi (szczególnie w przypadku małej próby). Konstrukcja współczynnika korelacji rang opiera się na zgodności pozycji, którą zajmuje każda z odpowiadających sobie wielkości we wzrastającym lub malejącym szeregu wartości cechy.

Współczynnik korelacji rang Spearmana (Q) wylicza się w oparciu o wyznaczone różnice rang ( ) oraz liczby par obserwacji (n): przy czym: gdzie: - rangi zmiennej X oraz Y (i=1,2,...n)

gdy Współczynnik korelacji rang przyjmuje wartości z przedziału , a jego interpretacja jest analogiczna do współczynnika korelacji Pearsona.