Statystyka i opracowanie danych

Slides:



Advertisements
Podobne prezentacje
Temat 2: Podstawy programowania Algorytmy – 1 z 2 _________________________________________________________________________________________________________________.
Advertisements

Proces doboru próby. Badana populacja – (zbiorowość generalna, populacja generalna) ogół rzeczywistych jednostek, o których chcemy uzyskać informacje.
Równowaga chemiczna - odwracalność reakcji chemicznych
Ekonometria stosowana WYKŁAD 4 Piotr Ciżkowicz Katedra Międzynarodowych Studiów Porównawczych.
STATYSTYKA – kurs podstawowy wykład 1 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.
Teoria gry organizacyjnej Każdy człowiek wciąż jest uczestnikiem wielu różnych gier. Teoria gier zajmuje się wyborami podejmowanymi przez ludzi w warunkach.
Analiza rozkładu empirycznego dr Marta Marszałek Zakład Statystyki Stosowanej Instytut Statystyki i Demografii Kolegium.
ZASTOSOWANIE FUNKCJI WYKŁADNICZEJ I LOGARYTMICZNEJ DO OPISU RUCHU DRGAJĄCEGO Agnieszka Wlocka Agnieszka Szota.
Metodologia tworzenia strategii wg Mirosława Gębskiego Euroinvestment.
STATYSTYKA MATEMATYCZNA wykład 1 - wprowadzenie Dr Aldona Migała-Warchoł.
Ćwiczenia Zarządzanie Ryzykiem Renata Karkowska, ćwiczenia „Zarządzanie ryzykiem” 1.
Cel analizy statystycznej. „Człowiek –najlepsza inwestycja”
Mikroekonomia dr hab. Maciej Jasiński, prof. WSB Wicekanclerz, pokój 134A Semestr zimowy: 15 godzin wykładu Semestr letni: 15.
EWALUACJA PROJEKTU WSPÓŁFINANSOWANEGO ZE ŚRODKÓW UNII EUROPEJSKIE J „Wyrównywanie dysproporcji w dostępie do przedszkoli dzieci z terenów wiejskich, w.
Podstawowe pojęcia termodynamiki chemicznej -Układ i otoczenie, składniki otoczenia -Podział układów, fazy układu, parametry stanu układu, funkcja stanu,
Analiza wariancji (ANOVA) Zakład Statystyki Stosowanej Instytut Statystyki i Demografii Kolegium Analiz Ekonomicznych Szkoła Główna Handlowa w Warszawie.
EWALUACJA JAKO ISTOTNY ELEMENT PROJEKTÓW SYSTEMOWYCH Sonia Rzeczkowska.
Zmienne losowe Zmienne losowe oznacza się dużymi literami alfabetu łacińskiego, na przykład X, Y, Z. Natomiast wartości jakie one przyjmują odpowiednio.
BYĆ PRZEDSIĘBIORCZYM - nauka przez praktykę Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu Społecznego.
Analiza tendencji centralnej „Człowiek – najlepsza inwestycja”
Funkcja liniowa Przygotował: Kajetan Leszczyński Niepubliczne Gimnazjum Przy Młodzieżowym Ośrodku Wychowawczym Księży Orionistów W Warszawie Ul. Barska.
© Prof. Antoni Kozioł, Wydział Chemiczny Politechniki Wrocławskiej MATEMATYCZNE MODELOWANIE PROCESÓW BIOTECHNOLOGICZNYCH Prezentacja – 4 Matematyczne opracowywanie.
STATYSTYKA – kurs podstawowy wykład 10 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.
ANALIZA DANYCH DO OPRACOWANIA MAP TEMATYCZNYCH HALINA KLIMCZAK INSTYTUT GEODEZJI I GEOINFORMATYKI UNIWERSYTET PRZYRODNICZY WE WROCŁAWIU.
Metody Analizy Danych Doświadczalnych Wykład 9 ”Estymacja parametryczna”
BADANIA STATYSTYCZNE. WARUNKI BADANIA STATYSTYCZNEGO musi dotyczyć zbiorowościstatystycznej musi określać prawidłowościcharakteryzujące całą zbiorowość.
Optymalna wielkość produkcji przedsiębiorstwa działającego w doskonałej konkurencji (analiza krótkookresowa) Przypomnijmy założenia modelu doskonałej.
Metody sztucznej inteligencji - Technologie rozmyte i neuronowe 2015/2016 Perceptrony proste nieliniowe i wielowarstwowe © Kazimierz Duzinkiewicz, dr hab.
Definiowanie i planowanie zadań typu P 1.  Planowanie zadań typu P  Zadania typu P to zadania unikalne służące zwykle dokonaniu jednorazowej, konkretnej.
Zmienna losowa dwuwymiarowa Dwuwymiarowy rozkład empiryczny Zakład Statystyki Stosowanej Instytut Statystyki i Demografii Kolegium Analiz Ekonomicznych.
1 Definiowanie i planowanie zadań budżetowych typu B.
M ETODY POMIARU TEMPERATURY Karolina Ragaman grupa 2 Zarządzanie i Inżynieria Produkcji.
Jak tworzymy katalog alfabetyczny? Oprac.Regina Lewańska.
Budżetowanie kapitałowe cz. III. NIEPEWNOŚĆ senesu lago NIEPEWNOŚĆ NIEMIERZALNA senesu strice RYZYKO (niepewność mierzalna)
Zarządzanie zespołem pracowników - wprowadzenie. Cele przedmiotu C1: Przekazanie studentom wiedzy o celach i strukturze procesu zarządzania personelem,
Ogólnopolska Konferencja Naukowa Finanse – Statystyka – Badania Empiryczne 26 październik 2016 rok Wrocław Katedra Prognoz i Analiz Gospodarczych Uniwersytet.
O PARADOKSIE BRAESSA Zbigniew Świtalski Paweł Skałecki Wydział Matematyki, Informatyki i Ekonometrii Uniwersytet Zielonogórski Zakopane 2016.
Test analizy wariancji dla wielu średnich – klasyfikacja pojedyncza
Logika dla prawników Podział logiczny.
Systemy eksperckie i sztuczna inteligencja
mutacyjnego algorytmu ewolucyjnego
Katedra Międzynarodowych Studiów Porównawczych
System wspomagania decyzji DSS do wyznaczania matematycznego modelu zmiennej nieobserwowalnej dr inż. Tomasz Janiczek.
terminologia, skale pomiarowe, przykłady
Liczby pierwsze.
„Prawa Ceteris Paribus i socjo-ekonomiczne mechanizmy”
Rachunek prawdopodobieństwa i statystyka
Modele SEM założenia formalne
Podstawy automatyki I Wykład /2016
Funkcja – definicja i przykłady
Pojedyńczy element, mała grupa
Podstawy Teorii Sygnałów (PTS) Wprowadzenie
Opracowała: Monika Grudzińska - Czerniecka
Elementy fizyki kwantowej i budowy materii
Języki programowania.
Wnioskowanie statystyczne. Estymacja i estymatory.
TESTOWANIE I TESTY W BADANIACH PEDAGOGICZNYCH Opracowanie : Prof
Próg rentowności K. Bondarowska.
Tornister Warto zauważyć, że problem przeciążonych tornistrów szkolnych wynika  z kilku przyczyn: - Dzieci często noszą w plecakach więcej podręczników.
Własności statystyczne regresji liniowej
Zgłoszenie do konkursu
Statystyka i Demografia
REGRESJA WIELORAKA.
ROZKŁADY STATYSTYCZNE ZMIENNYCH MIERZALNYCH
Mikroekonomia Wykład 4.
WYBRANE ZAGADNIENIA PROBABILISTYKI
Grazyna Mirkowska Matematyka Dyskretna PJWSTK 2001
Własności asymptotyczne metody najmniejszych kwadratów
dr Robert Kowalczyk, PWSZ Płock
Zapis prezentacji:

Statystyka i opracowanie danych Wprowadzenie do badań statystycznych Podstawowe definicje i twierdzenia Rachunku Prawdopodobieństwa www.metal.agh.edu.pl/~regulski Krzysztof Regulski, WIMiIP, KISiM, regulski@agh.edu.pl B5, pok. 408

Gdzie stosujemy statystykę? inne ? polityka zarządzanie ekonomia gospodarka produkcja zarządzanie jakością sztuczna inteligencja: rozpoznawanie wzorców, mowy, pisma, semantyka BigData data mining KISIM, WIMiIP, AGH

Zagadnienia Sztucznej Inteligencji (AI) Soft Computing Optymalizacja badania operacyjne Algorytmy ewolucyjne i genetyczne reprezentacja wiedzy Logika rozmyta Sieci neuronowe wnioskowanie Metody statystyczne Computational Intelligence - numeryczne Artificial Intelligence - symboliczne Systemy ekspertowe Rachunek prawdopodobieństwa Wizualizacja Data mining Uczenie maszynowe Rozpoznawanie Wzorców KISIM, WIMiIP, AGH

Przykłady zadań sztucznej inteligencji dokonywanie ekspertyz ekonomicznych, prawnych, technicznych, medycznych (ocena) wspomaganie podejmowania decyzji (doradzanie) rozpoznawanie obrazów, twarzy, wzorców, etc. optymalizacja (harmonogramowanie, alokacja zasobów, planowanie tras) generacja nowej wiedzy (poszukiwanie zalezności, tendencji, reguł, etc – data mining) prognozowanie zjawisk ekonomicznych, przyrodniczych rozumienie języka naturalnego sterowanie urządzeniami (roboty etc) i inne… KISIM, WIMiIP, AGH

Industry 4.0

Big Data big data to zbiory informacji o dużej objętości, dużej zmienności lub dużej różnorodności, które wymagają nowych form przetwarzania w celu wspomagania podejmowania decyzji, odkrywania nowych zjawisk oraz optymalizacji procesów: szukanie, pobieranie, gromadzenie i przetwarzanie  model 4V (Volume, Velocity, Variety, Value) : wykorzystanie – wykorzystaj najpierw wewnętrzne (własne) zasoby danych; wnioskowanie – umiejętnie stosuj techniki analityczne, użyj ekspertów; wzbogacanie – wzbogacaj własne dane o informacje z rynku, używaj słowników i baz referencyjnych; weryfikacja – koniecznie weryfikuj hipotezy i wnioski. Big Data as-a-Service (BDaaS), czyli przetwarzanie w chmurze obliczeniowej wielkich zbiorów danych, to dziś najszybciej rozwijająca się gałąź IT Ponad 7 miliardów dolarów – na tyle szacowana jest wartość sektora Big Data as-a-Service (BDaaS) w roku 2020 segment Big Data rozwija się niemal 6-krotnie szybciej niż cały rynek IT

Big Data Early detection of defects and production failures, thus enable their prevention, increase productivity, quality, and agility benefits that have significant competitive value. Big Data Analytics consists of 6Cs in the integrated Industry 4.0 and Cyber Physical Systems environment. The 6C system comprises: Connection (sensor and networks) Cloud (computing and data on demand) Cyber (model & memory) Content/context (meaning and correlation) Community (sharing & collaboration) Customization (personalization and value) Data has to be processed with advanced tools (analytics and algorithms) to generate meaningful information. KISIM, WIMiIP, AGH

KISIM, WIMiIP, AGH

Przechowywanie / Przetwarzanie / Analiza KISIM, WIMiIP, AGH

Plan Organizacja zajęć Zasady zaliczenia i system oceniania Sprawy organizacyjne: Organizacja zajęć Zasady zaliczenia i system oceniania Wykład 1 – Znaczenie i rola statystyki matematycznej we współczesnych badaniach inżynierskich. Podstawowe pojęcia w statystyce Wprowadzenie do rachunku prawdopodobieństwa: Zdarzenia, przestrzeń zdarzeń. KISIM, WIMiIP, AGH

System oceniania z przedmiotu zgodny z Regulaminem studiów AGH Punkty za ćwiczenia 100 Obecność 15 * 1 = 15 Aktywność 15 * 1 = 15 Sprawdziany 40 Projekt indywidualny 30 Ocena na zaliczenie w [%] =  punktów z ćwiczeń Punkty za udział w wykładach 15 * 2 = 30 + bonusy Ocena końcowa = ocena z ćwiczeń + {JEŚLI wykł ≥ 90% → pół stopnia w górę; ≥ 150% → stopień w górę ELSE → nic} Skala ocen Poniżej 50% punktów możliwych do uzyskania ocena 2,0 50-60 % 3,0 60-70 % 3,5 70-80 % 4,0 80-90 % 4,5 90-100 % 5,0

Nakład pracy studenta (syllabus) KISIM, WIMiIP, AGH

Statystyka i opracowanie danych Cel przedmiotu Zdobycie wiedzy o metodach i technikach statystyki matematycznej i poprawnym ich stosowaniu w badaniach naukowych (opracowanie wyników pomiarów i obserwacji) oraz w gospodarce (analiza rynku, kontrola jakości) . Nabycie umiejętności stosowania statystycznych form analizy danych i techniki komputerowej z użyciem programów EXCEL i STATISTICA.

Statystyka i opracowanie danych Treści Badania statystyczne; Podstawowe pojęcia. Statystyka opisowa miary położenia, miary zmienności, asymetrii i koncentracji, reprezentacja graficzna danych. Szeregi. Elementy rachunku prawdopodobieństwa: interpretacja zdarzeń, prawdopodobieństwo – podstawowe twierdzenia. Zmienne losowe, ich rozkłady i parametry rozkładu. Techniki wnioskowania statystycznego: estymacja i estymatory, weryfikacja hipotez statystycznych, testy statystyczne parametryczne i nieparametryczne. Analiza struktury zbiorów danych. Dopasowanie rozkładu empirycznego do teoretycznego. Analiza wariancji. Szukanie i badanie zależności. Podstawy korelacji i regresji: pojęcia podstawowe, korelacje cząstkowe, korelacje nieparametryczne, funkcje regresji. Ocena dopasowania funkcji do danych. Podstawowa wiedza o procesach stochastycznych. Zastosowania programów Excel i Statistica do analizy danych.

Polecane podręczniki Lapin L.L.J Statistics for modern engineering, PWS Publishers 1983 Plucińscy A., E. Rachunek Prawdopodobieństwa, Statystyka matematyczna, Procesy stochastyczne, WNT, Warszawa 2000 Stanisz A., Przystępny kurs statystyki z zastosowaniem STATISTICA PL, StatSoft, Kraków 2006 Hand D., Mannila H., Smyth P. Eksploracja danych, WNT Warszawa 2005 Hill T., Lewicki P. Statistics Methods and Applications, Stat Soft Inc. 2006

Statystyka pozwala wydobyć wiedzę z chaosu Znaczenie i rola statystyki matematycznej we współczesnych badaniach inżynierskich Statystyka pozwala wydobyć wiedzę z chaosu (z danych szczegółowych) Stale posługujemy się statystyką, np. uogólniając sądy Zarabiamy mniej niż w innych krajach UE, Dłużej żyjemy Częściej chorujemy Stosujemy pojęcia statystyczne w języku potocznym: Przeciętny konsument Podwyżka energii pociąga za sobą wzrost cen żywności Skąd wynika zła opinia o statystyce „kłamstwo, łgarstwo, statystyka”: Hermetyczna i trudna terminologia, Brak wiedzy na temat metod statystycznej analizy, które chronią przed skutkami niepewności wynikającej z przypadkowości, ze współdziałania wielu czynników i umożliwiają podejmowanie najlepszych decyzji w warunkach niepewności Niepoprawne (świadome) stosowanie statystyki dla osiągania ściśle określonych celów np. politycznych, komercyjnych itp.

Podstawowe pojęcia Populacja i próba statystyczna Badania statystyczne Cechy statystyczne, rodzaje cech i stosowane skale ich pomiaru Dane statystyczne i ich wstępne opracowanie

Populacja i próba statystyczna Populacja jest to zbiór wszystkich elementów reprezentujących analizowany problem (zjawisko). Może być zbiorem skończonym, przeliczalnym lub nieprzeliczalnym. Próba statystyczna – to podzbiór właściwy elementów badanej populacji, będący podstawą wnioskowania statystycznego o populacji.

Podstawowe cele badań statystycznych i statystycznej analizy zbiorów danych Badanie struktury populacji, reprezentowanej przez zbiór (danych) wartości wybranych cech (zmiennych) i jej wizualizacja w postaci rozkładów tych zmiennych bądź charakterystyka przy zastosowaniu parametrów statystyki opisowej. Odkrywanie i określanie (charakteru, siły, kierunku) zależności występujących w zbiorach danych reprezentujących różne cechy badanych obiektów, zjawisk, procesów. Wnioskowanie statystyczne – weryfikacja hipotez.

Badania statystyczne - rodzaje Badania pełne obejmują wszystkie elementy populacji, np. na przeglądzie uzębienia danego pacjenta można określić dokładną liczbę zębów i ich stan Badania częściowe – badania elementów próbki statystycznej, mają szerokie zastosowania i są: konieczne w przypadku populacji nieskończonej, stosowane w populacjach skończonych bardzo licznych stosowane w przypadkach badań niszczących

Badania statystyczne – próby losowe Losowy dobór próby polega na tym, że o fakcie znalezienia się poszczególnych elementów populacji w próbie decyduje przypadek. Jest to taki sposób wyboru przy którym spełnione są następujące dwa warunki; każda jednostka populacji ma dodatnie, znane prawdopodobieństwo znalezienia się w próbie istnieje możliwość ustalenia prawdopodobieństwa znalezienia się w próbie dla każdego zespołu elementów populacji

Wybór próby reprezentatywnej Od próby wymaga się reprezentatywności, czyli aby z przyjętą dokładnością opisywała strukturę badanej populacji. O reprezentatywności decydują dwa czynniki: Liczebność (n) Sposób doboru grupy Wybór celowy: o przynależności do grupy decyduje badacz, stopień reprezentatywności zależy wyłącznie od jakości selekcji Wybór losowy: każdy element populacji ma jednakową szansę znalezienia się w próbie z takim samym prawdopodobieństwem, stopień reprezentatywności rośnie wraz ze wzrostem liczebności grupy. Stosowane są dwie techniki losowania: Losowanie niezależne (zwrotne) Losowanie zależne (bezzwrotne)

O źródłach błędów w badaniach statystycznych Badania zawsze obciążone są błędami, zarówno pełne jak i częściowe, związanymi z: organizacją eksperymentu, niedokładnością pomiarową, przetwarzaniem wyników, w badaniach częściowych z niedokładnością odwzorowania struktury populacji w strukturę próbki

Cechy statystyczne i ich rodzaje Cechy, którymi wyróżniają się jednostki wchodzące w skład zbiorowości, nazywa się cechami statystycznymi. Każda zbiorowość statystyczna ma dużo cech, wyboru cech dokonuje się na podstawie zakładanego celu badań. Należy wybierać takie cechy, które stanowią istotną własność badanego zjawiska Typy cech cechy jakościowe – niemierzalne (np. kolor, sprawny, niesprawny) cechy ilościowe – mierzalne to takie, które dadzą się wyrazić za pomocą jednostek miary w pewnej skali ( np. wzrost [cm], waga [kg], udział[%]). Cecha mierzalna jest: ciągła, może przyjmować każdą wartość z określonego, skończonego przedziału liczbowego (np.odległość, ciężar, temperatura) dyskretna, skokowa przyjmuje wartości ze zbioru skończonego lub przeliczalnego (ilość wyrobów wadliwych, liczba zatrudnionych w zawodzie

Skale pomiaru cechy Skala nominalna – dotyczy cech jakościowych, operacją pomiarową jest identyfikacja kategorii do której należy zaliczyć wynik, prowadzi do podziału zbioru na zbiory rozłączne ( np. samochody wg kolorów). Skala porządkowa – stosowana jest do badania cech których natężenie jest określane przez przymiotniki, pociąga za sobą porządkowanie lub uszeregowanie badanej zmiennej ( np. poniżej normy, w normie, powyżej normy, albo za mały, mały, średni, duży, za duży) Skala równomierna (przedziałowa) – stosowania do pomiaru cech ilościowych, zakłada że zbiór wartości cechy składa się z liczb rzeczywistych określona przez wskazanie stałej jednostki miary i relacji przyporządkowującej liczbę każdemu wynikowi obserwacji (czas kalendarzowy, temperatura o C) Skala ilorazowa – posiada wszystkie właściwości skali przedziałowej ale pomiary wg tej skali charakteryzują się stałymi stosunkami i bezwzględnym zerem, ma zastosowanie w fizyce, technice np. czas jaki upłynął od chwili t1do t2

Dane jako wyniki badań Wyniki obserwacji i pomiarów mogą być wyrażone w postaci Tekstu (cechy jakościowe) Liczb całkowitych Przedziałów liczbowych Dane źródłowe zawierają się w: zbiorze, zbiorze uporządkowanym, zwanym szeregiem szczegółowym zbiorze podzielonym na klasy, zwanym szeregiem rozdzielczym

Opracowanie materiału statystycznego Szeregi statystyczne Celem tych działań jest przejście od danych indywidualnych do danych zbiorowych. Materiał źródłowy należy odpowiednio posegregować i policzyć, w wyniku otrzymuje się tzw. tablice robocze. Klasyfikacja danych musi być przeprowadzona: w sposób rozłączny, jednostki o określonych cechach muszą być jednoznacznie przydzielone do poszczególnych klas W sposób zupełny, tzn. klasy muszą objąć wszystkie występujące cechy danej zbiorowość Technika zestawiania zależy od rodzaju skali pomiarowej

Szeregi statystyczne szczegółowe rozdzielcze czasowe Z cechą ilościową Z cechą jakościową punktowe przedziałowe proste skumulowane proste skumulowane

Szereg szczegółowy Badana cecha przyjmuje niewielką liczbę jednostek (mała grupa) {x1, .... ,xn} Wartości porządkuje się Rosnąco x1< .... <xn lub Malejąco x1> .... >xn

Szereg czasowy, dynamiczny, chronologiczny Otrzymuje się w wyniku grupowania typologicznego (wyodrębniającego różne jakościowo cechy) wariancyjnego (porządkującego zbiorowość przez łączenie w klasy jednostek mających odpowiednie wartości cech) gdy podstawą grupowania jest zmiana badanego zjawiska w czasie

Analiza zmian w czasie - budowa szeregu czasowego

Szereg rozdzielczy Przy budowie szeregu rozdzielczego wyróżnia się trzy etapy: Ustalenie liczby klas oraz wielkości przedziałów klasowych Przyporządkowanie danych przyjętym przedziałom klasowym Zliczanie liczby jednostek w każdej klasie Liczba klas k zależy przede wszystkim od liczby obserwacji n Stosowane bywają następujące wzory pomocne do szacowania liczby przedziałów budowanego szeregu rozdzielczego: k=1+3,322 log n lub

Szereg rozdzielczy prosty – analiza struktury wiekowej pacjentów

Wykresy

Przykład zastosowania pakietu Statistica do analizy zapotrzebowania na energię

KISIM, WIMiIP, AGH

2016r. 2012r. Odsetek pracujących (skumulowane) Struktura wynagrodzeń (netto) Liczba pracujących (skumulowane) Odsetek pracujących (skumulowane) Poniżej 1181 zł ok. 800 tys. osób 10% Poniżej 1423 zł ok. 1,44 mln 18% Poniżej 2776 zł ok. 5,2 mln osób 66% Poniżej 3549 zł ok. 6,4 mln osób 80,50% Ponad 3549 zł netto miesięcznie zarabia tylko 19,5% pracujących Ponad 7000 zł ok. 270 tys. osób 3,47% Ponad 14000 zł ok. 48 tys. osób 0,60% Ponad 19000 zł ok. 16 tys. osób 0,20% Źródło: opracowanie Bankier.pl na podstawie danych GUS *Dane w tabeli dotyczą ok. 8 mln osób zatrudnionych w gospodarce narodowej (sektor przedsiębiorstw plus sektor publiczny) 2016r. 2012r. KISIM, WIMiIP, AGH

KISIM, WIMiIP, AGH