Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

Przygotowanie danych: rodzaje danych II EKSPLORACJA DANYCH nominalne (nominal) proporcjonalne (ratio) interwałowe (interval) porządkowe (ordinal) kategoryczne.

Podobne prezentacje


Prezentacja na temat: "Przygotowanie danych: rodzaje danych II EKSPLORACJA DANYCH nominalne (nominal) proporcjonalne (ratio) interwałowe (interval) porządkowe (ordinal) kategoryczne."— Zapis prezentacji:

1 Przygotowanie danych: rodzaje danych II EKSPLORACJA DANYCH nominalne (nominal) proporcjonalne (ratio) interwałowe (interval) porządkowe (ordinal) kategoryczne (categorical)

2 Przygotowanie danych: czyszczenie danych II EKSPLORACJA DANYCH W bazach danych znajdują się informacje nieprawdziwe, wprowadzone omyłkowo, zaszumione, itp. pola, które są przestarzałe lub zbędne dane w formatach nie nadających się do przetwarzania punkty oddalone, odstające (outliers) rekordy z brakującymi wartościami, wartości niezgodne z zasadami lub ze zdrowym rozsądkiem

3 Przygotowanie danych: czyszczenie danych II EKSPLORACJA DANYCH Pola, w których zapisane informacje są przestarzałe lub zbędne

4 Przygotowanie danych: uzupełnianie danych II EKSPLORACJA DANYCH Baza danych może zawierać dwa rodzaje niewypełnionych pól: brakujące dane (missing value) puste dane (empty value) Każdy z tych przypadków musi być inaczej potraktowany

5 Przygotowanie danych: uzupełnianie danych II EKSPLORACJA DANYCH Problem brakujących i pustych danych może zostać rozwiązany na wiele sposobów. Wbudowane w komercyjne programy moduły uzupełniania danych są łatwe do zastosowania. Jednak najważniejsze jest to, aby modelujący nie tylko znał wykorzystywaną metodę uzupełniania, jej ograniczenia i niebezpieczeństwa wynikające ze stosowania, ale również, aby mógł wpływać na nią i korygować proponowane rozwiązania.

6 Przygotowanie danych: uzupełnianie danych II EKSPLORACJA DANYCH techniki modelowania nie potrafią poradzić sobie z brakiem danych większość automatycznych metod uzupełniania zbiorów gubi informację zawartą w brakujących danych modelujący musi znać i kontrolować sposób uzupełniania danych stosowanie automatycznych technik uzupełniania danych może prowadzić do zniekształcenia cech zbioru Powody uzupełniania danych:

7 Przygotowanie danych: uzupełnianie danych II EKSPLORACJA DANYCH Uzupełnianie danych polega na znajdowaniu wielkości mających zastąpić dane brakujące lub puste. Najlepszym estymatorem (wartością oszacowaną) jest estymator nieobciążony. Estymator jest nieobciążony, jeśli wartość oczekiwana rozkładu estymatora jest równa wartości szacowanego parametru, czyli dana którą mamy zamiar zastąpić brakującą lub pustą daną wprowadzi najmniej lub w ogóle nie wprowadzi zaburzenia do uzupełnianego zbioru x 5

8 Przygotowanie danych: dane odstające II EKSPLORACJA DANYCH Przez dane odstające rozumiemy pojedyncze lub bardzo rzadko występujące dane, które lokują się bardzo, bardzo daleko od głównego zbioru analizowanej zmiennej. Czy to jest błąd?

9 Przygotowanie danych: przekształcanie danych II EKSPLORACJA DANYCH Ogromne zbiory danych charakteryzują się między innymi wielowymiarowością. Zgromadzone dane obejmują wielkości różnej natury. Przekształcanie danych jest procedurą wstępnej obróbki tych danych mającą na celu umożliwienie ich wzajemnego porównywania i prowadzenie dalszej analizy.

10 Przygotowanie danych: przekształcanie danych II EKSPLORACJA DANYCH normalizacja min - max normalizacja z danymi odstającymi normalizacja soft max normalizacja Z-score (standaryzacja) Zmienne najczęściej mają bardzo różne zakresy. Dla pewnych algorytmów takie różnice przedziałów będą powodować nadmierny wpływ na wyniki. Aby tego uniknąć należy znormalizować dane:

11 Przygotowanie danych: normalizacja danych II EKSPLORACJA DANYCH

12 Przygotowanie danych: normalizacja danych II EKSPLORACJA DANYCH

13 Przygotowanie danych: normalizacja danych II EKSPLORACJA DANYCH


Pobierz ppt "Przygotowanie danych: rodzaje danych II EKSPLORACJA DANYCH nominalne (nominal) proporcjonalne (ratio) interwałowe (interval) porządkowe (ordinal) kategoryczne."

Podobne prezentacje


Reklamy Google