II EKSPLORACJA DANYCH Przygotowanie danych: rodzaje danych

Slides:



Advertisements
Podobne prezentacje
ESTYMACJA PRZEDZIAŁOWA
Advertisements

Mechanizm wnioskowania rozmytego
Analiza wariancji jednoczynnikowa
Programowanie I Rekurencja.
Skale pomiarowe – BARDZO WAŻNE
Badania operacyjne. Wykład 1
Badania operacyjne. Wykład 2
WPROWADZENIE DO BAZ DANYCH
Sortowanie Zajęcia 13.
Statystyka w doświadczalnictwie
Wybrane wiadomości z teorii błędów
Eksperymentalna ocena jakości rozpoznawania
Odkrywanie wzorców sekwencji
Normy praktyki zawodowej
Wstęp do programowania obiektowego
Additive Models, Trees, and Related Methods
Korelacje, regresja liniowa
Rozkład normalny Cecha posiada rozkład normalny jeśli na jej wielkość ma wpływ wiele niezależnych czynników, a wpływ każdego z nich nie jest zbyt duży.
Średnie i miary zmienności
Zarządzanie projektami
Metody ilościowe w biznesie Wykład 1
Hipotezy statystyczne
Ekonometria. Co wynika z podejścia stochastycznego?
Elementy Rachunku Prawdopodobieństwa i Statystyki
BADANIE STATYSTYCZNE Badanie statystyczne to proces pozyskiwania danych na temat rozkładu cechy statystycznej w populacji. Badanie może mieć charakter:
Analiza wariancji jednoczynnikowa.
Równania rekurencyjne
Bazy danych podstawowe pojęcia
Temat 19: Organizacja informacji w bazie danych – część 1.
Hipotezy statystyczne
Modelowanie matematyczne jako podstawa obliczeń naukowo-technicznych:
Elementy Rachunku Prawdopodobieństwa i Statystyki
Zarządzanie informacją
Wybrane zagadnienia relacyjnych baz danych
Statystyka i opracowanie wyników badań
Bazy danych - podstawowe pojęcia
VI EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja
VII EKSPLORACJA DANYCH
IV EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja
SYSTEMY EKSPERTOWE I SZTUCZNA INTELIGENCJA
Henryk Rusinowski, Marcin Plis
Seminarium licencjackie Beata Kapuścińska
Przedmiot: Ekonometria Temat: Szeregi czasowe. Dekompozycja szeregów
Ekonometryczne modele nieliniowe
Wnioskowanie statystyczne
Treści multimedialne - kodowanie, przetwarzanie, prezentacja Odtwarzanie treści multimedialnych Andrzej Majkowski informatyka +
Statystyka medyczna Piotr Kozłowski
Metody Matematyczne w Inżynierii Chemicznej Podstawy obliczeń statystycznych.
Przenoszenie błędów (rachunek błędów) Niech x=(x 1,x 2,...,x n ) będzie n-wymiarową zmienną losową złożoną z niezależnych składników o rozkładach normalnych.
Model przydziału zadań. Informacje wstępne ● Podaję tu uproszczoną wersję modelu, którą będziemy stosować w testach. ● Wszystkie trudniejsze wymagania,
Model ekonometryczny Jacek Szanduła.
Prezentacja programu PowerPoint
Treść dzisiejszego wykładu l Weryfikacja statystyczna modelu ekonometrycznego –błędy szacunku parametrów, –istotność zmiennych objaśniających, –autokorelacja,
Temat: Tworzenie bazy danych
Modele nieliniowe sprowadzane do liniowych
Parametry rozkładów Metodologia badań w naukach behawioralnych II.
STATYSTYKA – kurs podstawowy wykład 11
Rodzaje zmian zachodzących w otoczeniu przedsiębiorstwa:
Statystyka matematyczna
Statystyka matematyczna
Regresja wieloraka – bada wpływ wielu zmiennych objaśniających (niezależnych) na jedną zmienną objaśnianą (zależą)
Jednorównaniowy model regresji liniowej
{ Wsparcie informacyjne dla zarządzania strategicznego Tereshkun Volodymyr.
Metody sztucznej inteligencji
Treści multimedialne - kodowanie, przetwarzanie, prezentacja Odtwarzanie treści multimedialnych Andrzej Majkowski informatyka +
MNK – podejście algebraiczne
MIARY STATYSTYCZNE Warunki egzaminu.
Czym są i jak służą społeczeństwu?
statystyka podstawowe pojęcia
Zapis prezentacji:

II EKSPLORACJA DANYCH Przygotowanie danych: rodzaje danych nominalne (nominal) kategoryczne (categorical) porządkowe (ordinal) interwałowe (interval) proporcjonalne (ratio)

GIGO II EKSPLORACJA DANYCH Przygotowanie danych: czyszczenie danych W bazach danych znajdują się informacje nieprawdziwe, wprowadzone omyłkowo, zaszumione, itp. GIGO pola, które są przestarzałe lub zbędne rekordy z brakującymi wartościami, punkty oddalone, odstające (outliers) dane w formatach nie nadających się do przetwarzania wartości niezgodne z zasadami lub ze zdrowym rozsądkiem

II EKSPLORACJA DANYCH Przygotowanie danych: czyszczenie danych Pola, w których zapisane informacje są przestarzałe lub zbędne

II EKSPLORACJA DANYCH Przygotowanie danych: uzupełnianie danych Baza danych może zawierać dwa rodzaje niewypełnionych pól: brakujące dane (missing value) puste dane (empty value) Każdy z tych przypadków musi być inaczej potraktowany

II EKSPLORACJA DANYCH Przygotowanie danych: uzupełnianie danych Problem brakujących i pustych danych może zostać rozwiązany na wiele sposobów. Wbudowane w komercyjne programy moduły uzupełniania danych są łatwe do zastosowania. Jednak najważniejsze jest to, aby modelujący nie tylko znał wykorzystywaną metodę uzupełniania, jej ograniczenia i niebezpieczeństwa wynikające ze stosowania, ale również, aby mógł wpływać na nią i korygować proponowane rozwiązania.

II EKSPLORACJA DANYCH Przygotowanie danych: uzupełnianie danych Powody uzupełniania danych: techniki modelowania nie potrafią poradzić sobie z brakiem danych stosowanie automatycznych technik uzupełniania danych może prowadzić do zniekształcenia cech zbioru modelujący musi znać i kontrolować sposób uzupełniania danych większość automatycznych metod uzupełniania zbiorów gubi informację zawartą w brakujących danych

1 2 3 x 5 II EKSPLORACJA DANYCH Przygotowanie danych: uzupełnianie danych Uzupełnianie danych polega na znajdowaniu wielkości mających zastąpić dane brakujące lub puste. Najlepszym estymatorem (wartością oszacowaną) jest estymator nieobciążony. Estymator jest nieobciążony, jeśli wartość oczekiwana rozkładu estymatora jest równa wartości szacowanego parametru, czyli dana którą mamy zamiar zastąpić brakującą lub pustą daną wprowadzi najmniej lub w ogóle nie wprowadzi zaburzenia do uzupełnianego zbioru. 1 2 3 x 5

II EKSPLORACJA DANYCH Przygotowanie danych: dane odstające Przez dane odstające rozumiemy pojedyncze lub bardzo rzadko występujące dane, które lokują się bardzo, bardzo daleko od głównego zbioru analizowanej zmiennej. Czy to jest błąd?

II EKSPLORACJA DANYCH Przygotowanie danych: przekształcanie danych Ogromne zbiory danych charakteryzują się między innymi wielowymiarowością. Zgromadzone dane obejmują wielkości różnej natury. Przekształcanie danych jest procedurą wstępnej obróbki tych danych mającą na celu umożliwienie ich wzajemnego porównywania i prowadzenie dalszej analizy.

II EKSPLORACJA DANYCH Przygotowanie danych: przekształcanie danych Zmienne najczęściej mają bardzo różne zakresy. Dla pewnych algorytmów takie różnice przedziałów będą powodować nadmierny wpływ na wyniki. Aby tego uniknąć należy znormalizować dane: normalizacja min - max normalizacja soft max normalizacja z danymi odstającymi normalizacja Z-score (standaryzacja)

II EKSPLORACJA DANYCH Przygotowanie danych: normalizacja danych

II EKSPLORACJA DANYCH Przygotowanie danych: normalizacja danych

II EKSPLORACJA DANYCH Przygotowanie danych: normalizacja danych