Pobierz prezentację
Pobieranie prezentacji. Proszę czekać
OpublikowałWiga Latek Został zmieniony 11 lat temu
1
Problemy metodologiczne i kierunki rozwojowe wydobywania wiedzy z danych
Juliusz L. Kulikowski Instytut Biocybernetyki i Inżynierii Biomedycznej im. M. Nałęcza PAN, ul. Ks, Trojdena 4, Warszawa
2
J.L. Kulikowski - INFOBAZY 2011
Plan prezentacji 1. Wstęp – systemy informacji 2. Zasoby informacji 3. Jakość informacji 4. Organizacja logiczna zasobów informacji 5. Semantyczne przetwarzanie 6. Problemy budowy systemów eksploracji i wydobywania wiedzy z danych 7. Wnioski końcowe Gdańsk, J.L. Kulikowski - INFOBAZY 2011
3
Systemy informacji S = [ZI, ZS, ZLP, ZO],
Systemem informacji nazywamy zespół elementów: S = [ZI, ZS, ZLP, ZO], gdzie: ZI – zasoby informacyjne, ZS – zasoby sprzętowe, ZLP – zasoby logiczno-programowe, ZO – zasady organizacji, działający w sposób umożliwiający gromadzenie określonego rodzaju informacji i ich udostępnianie użytkownikom. Gdańsk, J.L. Kulikowski - INFOBAZY 2011
4
Taksonomia systemów informacyjnych
Zasoby informacyjne monotematyczne wielotematyczne Gdańsk, J.L. Kulikowski - INFOBAZY 2011
5
Taksonomia systemów informacyjnych
Zasoby informacyjne monotematyczne wielotematyczne Zasoby sprzętowe scentralizowane rozproszone Gdańsk, J.L. Kulikowski - INFOBAZY 2011
6
Taksonomia systemów informacyjnych
Zasoby informacyjne monotematyczne wielotematyczne Zasoby sprzętowe scentralizowane rozproszone Zasoby logiczno-programowe ubogie (brak automatyzacji) średnie (automatyzacja częściowa) bogate (wysoki poziom automatyzacji Gdańsk, J.L. Kulikowski - INFOBAZY 2011
7
Taksonomia systemów informacyjnych
Zasoby informacyjne monotematyczne wielotematyczne Zasoby sprzętowe scentralizowane rozproszone Zasoby logiczno-programowe ubogie (brak automatyzacji) średnie (automatyzacja częściowa) bogate (wysoki poziom automatyzacji Zasady organizacyjne jednorodne zróżnicowane Gdańsk, J.L. Kulikowski - INFOBAZY 2011
8
J.L. Kulikowski - INFOBAZY 2011
Zasoby informacyjne Zasobów informacyjnych nie traktujemy jako prosty zbiór zapisów w bazach danych, lecz także jako system, który tworzą zapisy lub dokumenty informacyjne i wiążące je relacje typu logicznego i semantycznego. Projektowanie zasobów informacyjnych systemów jest przedmiotem intensywnie obecnie rozwijanej dyscypliny naukowo-technicznej zwanej inżynierią wiedzy. Inżynieria wiedzy koncentruje uwagę na strukturze logicznej, zawartości semantycznej i wartości użytkowej zasobów informacyjnych baz wiedzy. Gdańsk, J.L. Kulikowski - INFOBAZY 2011
9
Kryteria oceny zasobów informacyjnych
. Gdańsk, J.L. Kulikowski - INFOBAZY 2011
10
J.L. Kulikowski - INFOBAZY 2011
Jakość informacji Jakość informacji jest cechą wieloaspektową obejmującą takie właściwości jak: Gdańsk, J.L. Kulikowski - INFOBAZY 2011
11
J.L. Kulikowski - INFOBAZY 2011
Jakość informacji Jakość informacji jest cechą wieloaspektową obejmującą takie właściwości jak: Relewantność, Gdańsk, J.L. Kulikowski - INFOBAZY 2011
12
J.L. Kulikowski - INFOBAZY 2011
Jakość informacji Jakość informacji jest cechą wieloaspektową obejmującą takie właściwości jak: Relewantność, Wiarogodność, Gdańsk, J.L. Kulikowski - INFOBAZY 2011
13
J.L. Kulikowski - INFOBAZY 2011
Jakość informacji Jakość informacji jest cechą wieloaspektową obejmującą takie właściwości jak: Relewantność, Wiarogodność, Dokładność i precyzja, Gdańsk, J.L. Kulikowski - INFOBAZY 2011
14
J.L. Kulikowski - INFOBAZY 2011
Jakość informacji Jakość informacji jest cechą wieloaspektową obejmującą takie właściwości jak: Relewantność, Wiarogodność, Dokładność i precyzja, Aktualność, Gdańsk, J.L. Kulikowski - INFOBAZY 2011
15
J.L. Kulikowski - INFOBAZY 2011
Jakość informacji Jakość informacji jest cechą wieloaspektową obejmującą takie właściwości jak: Relewantność, Wiarogodność, Dokładność i precyzja, Aktualność, Kompletność, Gdańsk, J.L. Kulikowski - INFOBAZY 2011
16
J.L. Kulikowski - INFOBAZY 2011
Jakość informacji Jakość informacji jest cechą wieloaspektową obejmującą takie właściwości jak: Relewantność, Wiarogodność, Dokładność i precyzja Aktualność, Kompletność Czytelność, itp. Gdańsk, J.L. Kulikowski - INFOBAZY 2011
17
Jakość informacji Uwaga ogólna
Cechy jakości informacji w bazach danych faktograficznych trzeba rozumieć nieco inaczej niż przyjęto w ocenie danych bibliograficznych Gdańsk, J.L. Kulikowski - INFOBAZY 2011
18
J.L. Kulikowski - INFOBAZY 2011
Relewantność danych Przydatność danych, ze względu na ich treść, dla określonego użytkownika Gdańsk, J.L. Kulikowski - INFOBAZY 2011
19
J.L. Kulikowski - INFOBAZY 2011
Relewantność danych Przydatność danych, ze względu na ich treść, dla określonego użytkownika Problemy: Potrzeby potencjalnych użytkowników nie są a priori znane twórcom baz danych; Gdańsk, J.L. Kulikowski - INFOBAZY 2011
20
J.L. Kulikowski - INFOBAZY 2011
Relewantność danych Przydatność danych, ze względu na ich treść, dla określonego użytkownika Problemy: Potrzeby potencjalnych użytkowników nie są a priori znane twórcom baz danych; Potrzeby użytkowników zmieniają się i nie są przez nich w pełni skonkretyzowane; Gdańsk, J.L. Kulikowski - INFOBAZY 2011
21
J.L. Kulikowski - INFOBAZY 2011
Relewantność danych Przydatność danych, ze względu na ich treść, dla określonego użytkownika Problemy: Potrzeby potencjalnych użytkowników nie są a priori znane twórcom baz danych; Potrzeby użytkowników zmieniają się i nie są przez nich w pełni skonkretyzowane; Potrzeby różnych użytkowników mogą być różne; Gdańsk, J.L. Kulikowski - INFOBAZY 2011
22
J.L. Kulikowski - INFOBAZY 2011
Relewantność danych Przydatność danych, ze względu na ich treść, dla określonego użytkownika Problemy: Potrzeby potencjalnych użytkowników nie są a priori znane twórcom baz danych; Potrzeby użytkowników zmieniają się i nie są przez nich w pełni skonkretyzowane; Potrzeby różnych użytkowników mogą być różne; Niektóre potrzeby użytkowników mogą być niezgodne z interesem twórców baz danych lub sprzeczne z prawem Gdańsk, J.L. Kulikowski - INFOBAZY 2011
23
J.L. Kulikowski - INFOBAZY 2011
Wiarogodność danych Poziom zaufania użytkownika do twórcy bazy danych, iż nie oferuje on danych wadliwych lub tendencyjnych Gdańsk, J.L. Kulikowski - INFOBAZY 2011
24
J.L. Kulikowski - INFOBAZY 2011
Wiarogodność danych Poziom zaufania użytkownika do twórcy bazy danych, iż nie oferuje on danych wadliwych lub tendencyjnych Problemy: Wiarogodność danych może stwierdzić jedynie jednostka niezależna od ich twórcy i dysponenta bazy danych; Gdańsk, J.L. Kulikowski - INFOBAZY 2011
25
J.L. Kulikowski - INFOBAZY 2011
Wiarogodność danych Poziom zaufania użytkownika do twórcy bazy danych, iż nie oferuje on danych wadliwych lub tendencyjnych Problemy: Wiarogodność danych może stwierdzić jedynie jednostka niezależna od ich twórcy i dysponenta bazy danych; Potwierdzenie wiarogodności może być procesem złożonym i kosztownym; powstaje problem, na kim powinien spoczywać obowiązek jego prowadzenia. Gdańsk, J.L. Kulikowski - INFOBAZY 2011
26
Dokładność i precyzja danych
Dokładność jest cechą związaną zależnością odwrotną do statystycznego błędy wyznaczenia wartości danej. Precyzja jest dokładnością zapisu danej. Dokładność Precyzja Błąd wypadkowy Gdańsk, J.L. Kulikowski - INFOBAZY 2011
27
Dokładność i precyzja danych Przykłady
1) Niska precyzja, niska dokładność: 2 2 2) Wysoka precyzja, niska dokładność: 2.5 3) Niska precyzja, wysoka dokładność : 2 0.05 4) Wysoka precyzja, wysoka dokładność: 2,75684 Gdańsk, J.L. Kulikowski - INFOBAZY 2011
28
Dokładność i precyzja danych Problemy
1) Nieznajomość istoty różnicy między dokładnością i precyzją danych; Gdańsk, J.L. Kulikowski - INFOBAZY 2011
29
Dokładność i precyzja danych Problemy
1) Przedstawianie danych liczbowych bez podania ich dokładności; 2) Nieznajomość istoty różnicy między dokładnością i precyzją danych (ich utożsamianie); Gdańsk, J.L. Kulikowski - INFOBAZY 2011
30
Dokładność i precyzja danych Problemy
1) Przedstawianie danych liczbowych bez podania ich dokładności; 2) Nieznajomość istoty różnicy między dokładnością i precyzją danych (ich utożsamianie); 3) Nieznajomość zasad kumulowania błędów przy ocenie (wyliczaniu) błędów wyrażeń zależnych od wielu czynników obarczonych błędami. Gdańsk, J.L. Kulikowski - INFOBAZY 2011
31
Dokładność i precyzja danych Ostrzeżenie
Prawo Dunsa Scotta: Z nieprawdziwych przesłanej można wysnuć wszelkie prawdziwe, jak i nieprawdziwe wnioski Wniosek: Nie ma metody pozwalającej logicznie uzasadnić prawdziwość wniosków wysnutych na podstawie niepoprawnych danych lub danych o niedostatecznej dokładności Gdańsk, J.L. Kulikowski - INFOBAZY 2011
32
J.L. Kulikowski - INFOBAZY 2011
Aktualność danych Aktualność bieżąca danej oznacza, że z dokładnością do określonego przedziału czasowego odnosi się ona do rzeczywistości w chwili pobierania danej przez użytkownika; Gdańsk, J.L. Kulikowski - INFOBAZY 2011
33
J.L. Kulikowski - INFOBAZY 2011
Aktualność danych Aktualność bieżąca (względna) danej oznacza, że z dokładnością do określonego przedziału czasowego odnosi się ona do rzeczywistości w chwili pobierania danej przez użytkownika; Aktualność absolutna danej oznacza, że odnosi się ona do stanu wiedzy o rzeczywistości w dowolnie określonym okresie czasu (w przeszłości). Gdańsk, J.L. Kulikowski - INFOBAZY 2011
34
Aktualność danych Problemy
1) Dane aktualne bieżąco są najbardziej cenne dla bieżącego podejmowania decyzji, ale zmieniają się w czasie; Gdańsk, J.L. Kulikowski - INFOBAZY 2011
35
Aktualność danych Problemy
1) Dane aktualne bieżąco są najbardziej cenne dla bieżącego podejmowania decyzji, ale zmieniają się w czasie; 2) Dane aktualne bieżąco mogą być niejednoznaczne, jeśli pochodzą z wielu źródeł, a dotyczą tego samego problemu; Gdańsk, J.L. Kulikowski - INFOBAZY 2011
36
Aktualność danych Problemy
1) Dane aktualne bieżąco są najbardziej cenne dla bieżącego podejmowania decyzji, ale zmieniają się w czasie; 2) Dane aktualne bieżąco mogą być niejednoznaczne, jeśli pochodzą z wielu źródeł, a dotyczą tego samego problemu; 3) Większość baz danych dostępnych sieciowo sugeruje ich aktualność bieżącą, ale jej nie gwarantuje (np. nie określa częstości aktualizacji). Gdańsk, J.L. Kulikowski - INFOBAZY 2011
37
J.L. Kulikowski - INFOBAZY 2011
Czytelność danych Czytelność danych oznacza możliwość ich użytkowania bez konieczności transkrypcji, translacji, przeformatowania lub jakiejkolwiek innej formy przystosowania do wymagań systemu użytkownika . Gdańsk, J.L. Kulikowski - INFOBAZY 2011
38
J.L. Kulikowski - INFOBAZY 2011
Kompletność danych Kompletność danych oznacza, że obejmują one: 1) Pełny zakres tematyczny interesujący użytkownika, 2) Liczbę wystąpień danych wystarczającą do rozwiązania problemu użytkownika, 3) Pełny opis danych (z meta-danymi) umożliwiający ich użycie. Gdańsk, J.L. Kulikowski - INFOBAZY 2011
39
Kompletność danych Problemy
1) Kompletność danych w wyżej podanym sensie w pojedynczej bazie danych można uzyskać tylko w zakresie potrzeb wynikających z wąskich problemów użytkownika; Gdańsk, J.L. Kulikowski - INFOBAZY 2011
40
Kompletność danych Problemy
1) Kompletność danych w wyżej podanym sensie w pojedynczej bazie danych można uzyskać tylko w zakresie potrzeb wynikających z wąskich problemów użytkownika; 2) W innych przypadkach użytkownik musi ponosić trud kompletowania danych pochodzących z wielu baz lokalnych, oceny ich jakości, ujednolicania formatów itp. Gdańsk, J.L. Kulikowski - INFOBAZY 2011
41
J.L. Kulikowski - INFOBAZY 2011
Czytelność danych Czytelność danych oznacza możliwość ich użytkowania bez konieczności transkrypcji, translacji, przeformatowania lub jakiejkolwiek innej formy przystosowania do wymagań systemu użytkownika . Problem: wysoka czytelność danych wymaga średniego lub wysokiego poziomu organizacji systemu informacyjnego. Gdańsk, J.L. Kulikowski - INFOBAZY 2011
42
Poziom organizacji logicznej
Organizacja logiczna zasobów informacyjnych obejmuje takie cechy jak: Gdańsk, J.L. Kulikowski - INFOBAZY 2011
43
Poziom organizacji logicznej
Organizacja logiczna zasobów informacyjnych obejmuje takie cechy jak: formaty jednostek informacyjnych (rekordów lub dokumentów), Gdańsk, J.L. Kulikowski - INFOBAZY 2011
44
Poziom organizacji logicznej
Organizacja logiczna zasobów informacyjnych obejmuje takie cechy jak: formaty jednostek informacyjnych (rekordów lub dokumentów), sposoby ich indeksowania , Gdańsk, J.L. Kulikowski - INFOBAZY 2011
45
Poziom organizacji logicznej
Organizacja logiczna zasobów informacyjnych obejmuje takie cechy jak: formaty jednostek informacyjnych (rekordów lub dokumentów), sposoby ich indeksowania , relacje formalne między jednostkami informacyjnymi, Gdańsk, J.L. Kulikowski - INFOBAZY 2011
46
J.L. Kulikowski - INFOBAZY 2011
Organizacja logiczna Organizacja logiczna zasobów informacyjnych obejmuje takie cechy jak: formaty jednostek informacyjnych (rekordów lub dokumentów), sposoby ich indeksowania , relacje formalne między jednostkami informacyjnymi, narzędzia programowe wykorzystujące w/w środki celem dostępu do informacji Gdańsk, J.L. Kulikowski - INFOBAZY 2011
47
Poziomy organizacji logicznej
I. Poziom niski: różnorodność formatów i metod indeksowania j.i. oraz mechanizmów dostępu do nich i brak możliwości ich łącznego użytkowania; Gdańsk, J.L. Kulikowski - INFOBAZY 2011
48
Poziomy organizacji logicznej
I. Poziom niski: różnorodność formatów i metod indeksowania j.i. oraz mechanizmów dostępu do nich i brak możliwości ich łącznego użytkowania; II. Poziom pośredni: różnorodność formatów i metod indeksowania, j.i. oraz mechanizmów dostępu do nich, lecz istnieją mechanizmy ich łącznego użytkowania; Gdańsk, J.L. Kulikowski - INFOBAZY 2011
49
Poziomy organizacji logicznej
I. Poziom niski: różnorodność formatów i metod indeksowania j.i. oraz mechanizmów dostępu do nich i brak możliwości ich łącznego użytkowania; II. Poziom pośredni: różnorodność formatów i metod indeksowania, j.i. oraz mechanizmów dostępu do nich, lecz istnieją mechanizmy ich łącznego użytkowania; III. Poziom wysoki: pełna jednorodność formatów i metod indeksowania j.i. oraz mechanizmów dostępu do nich, nie wymagająca żadnych środków ich dopasowywania. Gdańsk, J.L. Kulikowski - INFOBAZY 2011
50
Organizacja logiczna - problemy
1) Niski lub średni poziom organizacji logicznej nie gwarantuje użytkownikom wysokiej wiarogodności i dokładności danych; Gdańsk, J.L. Kulikowski - INFOBAZY 2011
51
Organizacja logiczna - problemy
1) Niski lub średni poziom organizacji logicznej nie gwarantuje użytkownikom wysokiej wiarogodności i dokładności danych; 2) Wysoki poziom organizacji logicznej trudno pogodzić ze spontanicznością rozwoju baz danych ogólnego dostępu. Gdańsk, J.L. Kulikowski - INFOBAZY 2011
52
Przetwarzanie semantyczne zasobów informacji
1. Ujednolicenie lub ustalenie równoważności jednostek, symboliki i terminologii w ramach danego języka; Gdańsk, J.L. Kulikowski - INFOBAZY 2011
53
Przetwarzanie semantyczne zasobów informacji
1. Ujednolicenie lub ustalenie równoważności jednostek, symboliki i terminologii w ramach danego języka; 2. Streszczenie lub indeksowanie; Gdańsk, J.L. Kulikowski - INFOBAZY 2011
54
Przetwarzanie semantyczne zasobów informacji
1. Ujednolicenie lub ustalenie równoważności jednostek, symboliki i terminologii w ramach danego języka; 2. Streszczenie lub indeksowanie; 3. Translacja; Gdańsk, J.L. Kulikowski - INFOBAZY 2011
55
Przetwarzanie semantyczne zasobów informacji
1. Ujednolicenie lub ustalenie równoważności jednostek, symboliki i terminologii w ramach danego języka; 2. Streszczenie lub indeksowanie; 3. Translacja; 4. Eksploracja danych; Gdańsk, J.L. Kulikowski - INFOBAZY 2011
56
Przetwarzanie semantyczne zasobów informacji
1. Ujednolicenie lub ustalenie równoważności jednostek, symboliki i terminologii w ramach danego języka; 2. Streszczenie lub indeksowanie; 3. Translacja; 4. Eksploracja danych; 5. Wydobywanie wiedzy; Gdańsk, J.L. Kulikowski - INFOBAZY 2011
57
Przetwarzanie semantyczne zasobów informacji
1. Ujednolicenie lub ustalenie równoważności jednostek, symboliki i terminologii w ramach danego języka; 2. Streszczenie lub indeksowanie; 3. Translacja; 4. Eksploracja danych; 5. Wydobywanie wiedzy; 6. Systematyzacja wiedzy Gdańsk, J.L. Kulikowski - INFOBAZY 2011
58
Przetwarzanie semantyczne zasobów informacji Cele ogólne
1) Zmniejszenie redundancji zasobów informacyjnych; Gdańsk, J.L. Kulikowski - INFOBAZY 2011
59
Przetwarzanie semantyczne zasobów informacji Cele ogólne
1) Zmniejszenie redundancji zasobów informacyjnych; 2) Ułatwienie podejmowania decyzji; Gdańsk, J.L. Kulikowski - INFOBAZY 2011
60
Przetwarzanie semantyczne zasobów informacji Cele ogólne
1) Zmniejszenie redundancji zasobów informacyjnych; 2) Ułatwienie podejmowania decyzji; 3) Wzbogacenie ogólnych zasobów wiedzy. Gdańsk, J.L. Kulikowski - INFOBAZY 2011
61
J.L. Kulikowski - INFOBAZY 2011
Eksploracja danych Eksploracja danych (ang. data mining, DM) - dział informatyki zajmujący się metodami i środkami programowymi wydobywania istotnych (z punktu widzenia określonego użytkownika) informacji zawartych w niejawnej formie w zbiorach danych. Gdańsk, J.L. Kulikowski - INFOBAZY 2011
62
J.L. Kulikowski - INFOBAZY 2011
Eksploracja danych Eksploracja danych (ang. data mining, DM) - dział informatyki zajmujący się metodami i środkami programowymi wydobywania istotnych (z punktu widzenia określonego użytkownika) informacji zawartych w niejawnej formie w zbiorach danych. Dotyczy ona danych: Istotnych dla użytkownika; Nie występujących w postaci jawnej; Występujących w dokumentach w różnorodnej postaci lub w dokumentach różnych typów Gdańsk, J.L. Kulikowski - INFOBAZY 2011
63
Efekty eksploracji danych
Wyselekcjonowane podzbiory elementów (np. obiektów wzorcowych); Relacje dwu- lub wieloargumentowe (podobieństwa, uporządkowania, drzewiastych struktur klasyfikacyjnych itp.), hiper-relacje; Implikacje logiczne; Modele geometryczne; Zależności funkcyjne; Widma harmoniczne(lub inne, funkcyjne); Histogramy i ich parametry (wartości średnie, wariancje, momenty wyższego rzędu, macierze kowariancji itp.) oraz oparte na nich aproksymujące rozkłady prawdopodobieństwa, funkcje regresji itp.; Funkcje przynależności do zbiorów rozmytych, relacji rozmytych itp.; Stwierdzenia formułowane w kategoriach logik nieklasycznych (wielowartościowych, modalnych, relatywnych, czasowych itp.). Gdańsk, J.L. Kulikowski - INFOBAZY 2011
64
J.L. Kulikowski - INFOBAZY 2011
Wydobywanie wiedzy Wydobywanie wiedzy z danych (ang. knowledge discovery in databases, KDD) - zorganizowane działanie zmierzające do wykrywania w dużych i złożonych zbiorach danych obiektywnie w nich występujących, wcześniej nierozpoznanych, praktycznie użytecznych i łatwo przez użytkownika interpretowalnych struktur danych. Gdańsk, J.L. Kulikowski - INFOBAZY 2011
65
Zaawansowana analiza semantyczna Przykład
Eksploracja danych: ujawnienie i wyliczenie korelacji między zawartością cholesterolu LDL w krwi pacjentów i ich średnim wynagrodzeniem; Wydobywanie wiedzy: podział pacjentów na kategorie pracownicze (wg. zawodu i poziomu wykształcenia) i wykazanie, że na poziom cholesterolu LDL bezpośredni wpływ ma różny tryb życia domowego w poszczególnych kategoriach pracowniczych; Systematyzacja: konfrontowanie wydobytych elementów wiedzy z innymi, łączenie ich w jednostki nadrzędne i uogólnianie. Gdańsk, J.L. Kulikowski - INFOBAZY 2011
66
Metodologia projektowania systemu eksploracji danych Przykład: system CRISP-DM
Analiza sytuacyjna Analiza danych Przygotowanie danych Budowa modelu Ocena modelu Upowszechnienie modelu Gdańsk, J.L. Kulikowski - INFOBAZY 2011
67
Projektowanie systemu eksploracji danych Problemy
1) Analiza sytuacyjna wymaga oceny aktualnych i przyszłych potrzeb informacyjnych środowiska użytkowników; 2) Analiza danych wymaga krytycznej oceny dostępnych danych pod kątem poprzednio omówionych cech ich jakości; 3) Przygotowanie danych oznacza ich zbieranie , selekcję i dostosowywanie do formalnych wymagań modelu przetwarzania. Gdańsk, J.L. Kulikowski - INFOBAZY 2011
68
Modele eksploracji danych
Środki używane do budowy modeli: Klasyczna teoria zbiorów i relacji; Klasyczny rachunek zdań; Geometria analityczna; Analiza harmoniczna; Teoria aproksymacji; Statystyka matematyczną; Teoria zbiorów rozmytych i przybliżonych; Logiki nieklasyczne inne. Gdańi, J.L. Kulikowski - INFOBAZY 2011
69
Typowe błędy popełniane przy eksploracji danych
przenoszenie statystycznych modeli regresji, estymacji lub weryfikacji hipotez opracowanych dla zmiennych losowych o rozkładzie normalnym na zmienne, których rozkład ewidentnie odbiega od normalnego (na przykład, odznacza się silną asymetrią); stosowanie metod klasyfikacji obiektów opartych na miarach odległości (np. euklidesowej, Manhattan, Czebyszewa i in.) do obiektów o cechach mających różne miana fizyczne i mogą być wyrażane w różnie dobieranych jednostkach (co wpływa na relatywny wpływ różnych składowych na wynik klasyfikacji); niewłaściwa interpretacja niektórych modeli (np. krzywej regresji jako przyczynowo-skutkowej zależności pary zmiennych, gdy są one jedynie współzależne od trzeciej zmiennej). Gdańsk, J.L. Kulikowski - INFOBAZY 2011
70
J.L. Kulikowski - INFOBAZY 2011
Wnioski końcowe Systemy eksploracji danych i wydobywania wiedzy odgrywają coraz większą rolę w badaniach naukowych i w licznych zastosowaniach; Gdańsk, J.L. Kulikowski - INFOBAZY 2011
71
J.L. Kulikowski - INFOBAZY 2011
Wnioski końcowe 1) Systemy eksploracji danych i wydobywania wiedzy odgrywają coraz większą rolę w badaniach naukowych i w licznych zastosowaniach; 2) Pełna przydatność takich systemów w istotny sposób zależy od zapewnienia wysokiej jakości danych wejściowych Gdańsk, J.L. Kulikowski - INFOBAZY 2011
72
J.L. Kulikowski - INFOBAZY 2011
Wnioski końcowe 1) Systemy eksploracji danych i wydobywania wiedzy odgrywają coraz większą rolę w badaniach naukowych i w licznych zastosowaniach; 2) Pełna przydatność takich systemów w istotny sposób zależy od zapewnienia wysokiej jakości danych wejściowych 3) Zapewnienie wysokiej jakości danych wejściowych wymaga opracowania i wdrożenia odpowiednich środków technicznych, norm, a także użycia środków organizacyjnych i administracyjnych. Gdańsk, J.L. Kulikowski - INFOBAZY 2011
73
J.L. Kulikowski - INFOBAZY 2011
Wnioski końcowe 1) Systemy eksploracji danych i wydobywania wiedzy odgrywają coraz większą rolę w badaniach naukowych i w licznych zastosowaniach; 2) Pełna przydatność takich systemów w istotny sposób zależy od zapewnienia wysokiej jakości danych wejściowych 3) Zapewnienie wysokiej jakości danych wejściowych wymaga opracowania i wdrożenia odpowiednich środków technicznych, norm, a także użycia środków organizacyjnych i administracyjnych. 4) Działalność komitetów CODATA może w istotny sposób przyczynić się do opracowania i wdrożenia takich środków. Gdańsk, J.L. Kulikowski - INFOBAZY 2011
74
J.L. Kulikowski - INFOBAZY 2011
Dziękuję za uwagę! Gdańsk, J.L. Kulikowski - INFOBAZY 2011
Podobne prezentacje
© 2024 SlidePlayer.pl Inc.
All rights reserved.