Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

Problemy metodologiczne i kierunki rozwojowe wydobywania wiedzy z danych Juliusz L. Kulikowski Instytut Biocybernetyki i Inżynierii Biomedycznej im.

Podobne prezentacje


Prezentacja na temat: "Problemy metodologiczne i kierunki rozwojowe wydobywania wiedzy z danych Juliusz L. Kulikowski Instytut Biocybernetyki i Inżynierii Biomedycznej im."— Zapis prezentacji:

1 Problemy metodologiczne i kierunki rozwojowe wydobywania wiedzy z danych
Juliusz L. Kulikowski Instytut Biocybernetyki i Inżynierii Biomedycznej im. M. Nałęcza PAN, ul. Ks, Trojdena 4, Warszawa

2 J.L. Kulikowski - INFOBAZY 2011
Plan prezentacji 1. Wstęp – systemy informacji 2. Zasoby informacji 3. Jakość informacji 4. Organizacja logiczna zasobów informacji 5. Semantyczne przetwarzanie 6. Problemy budowy systemów eksploracji i wydobywania wiedzy z danych 7. Wnioski końcowe Gdańsk, J.L. Kulikowski - INFOBAZY 2011

3 Systemy informacji S = [ZI, ZS, ZLP, ZO],
Systemem informacji nazywamy zespół elementów: S = [ZI, ZS, ZLP, ZO], gdzie: ZI – zasoby informacyjne, ZS – zasoby sprzętowe, ZLP – zasoby logiczno-programowe, ZO – zasady organizacji, działający w sposób umożliwiający gromadzenie określonego rodzaju informacji i ich udostępnianie użytkownikom. Gdańsk, J.L. Kulikowski - INFOBAZY 2011

4 Taksonomia systemów informacyjnych
Zasoby informacyjne monotematyczne wielotematyczne Gdańsk, J.L. Kulikowski - INFOBAZY 2011

5 Taksonomia systemów informacyjnych
Zasoby informacyjne monotematyczne wielotematyczne Zasoby sprzętowe scentralizowane rozproszone Gdańsk, J.L. Kulikowski - INFOBAZY 2011

6 Taksonomia systemów informacyjnych
Zasoby informacyjne monotematyczne wielotematyczne Zasoby sprzętowe scentralizowane rozproszone Zasoby logiczno-programowe ubogie (brak automatyzacji) średnie (automatyzacja częściowa) bogate (wysoki poziom automatyzacji Gdańsk, J.L. Kulikowski - INFOBAZY 2011

7 Taksonomia systemów informacyjnych
Zasoby informacyjne monotematyczne wielotematyczne Zasoby sprzętowe scentralizowane rozproszone Zasoby logiczno-programowe ubogie (brak automatyzacji) średnie (automatyzacja częściowa) bogate (wysoki poziom automatyzacji Zasady organizacyjne jednorodne zróżnicowane Gdańsk, J.L. Kulikowski - INFOBAZY 2011

8 J.L. Kulikowski - INFOBAZY 2011
Zasoby informacyjne Zasobów informacyjnych nie traktujemy jako prosty zbiór zapisów w bazach danych, lecz także jako system, który tworzą zapisy lub dokumenty informacyjne i wiążące je relacje typu logicznego i semantycznego. Projektowanie zasobów informacyjnych systemów jest przedmiotem intensywnie obecnie rozwijanej dyscypliny naukowo-technicznej zwanej inżynierią wiedzy. Inżynieria wiedzy koncentruje uwagę na strukturze logicznej, zawartości semantycznej i wartości użytkowej zasobów informacyjnych baz wiedzy. Gdańsk, J.L. Kulikowski - INFOBAZY 2011

9 Kryteria oceny zasobów informacyjnych
. Gdańsk, J.L. Kulikowski - INFOBAZY 2011

10 J.L. Kulikowski - INFOBAZY 2011
Jakość informacji Jakość informacji jest cechą wieloaspektową obejmującą takie właściwości jak: Gdańsk, J.L. Kulikowski - INFOBAZY 2011

11 J.L. Kulikowski - INFOBAZY 2011
Jakość informacji Jakość informacji jest cechą wieloaspektową obejmującą takie właściwości jak: Relewantność, Gdańsk, J.L. Kulikowski - INFOBAZY 2011

12 J.L. Kulikowski - INFOBAZY 2011
Jakość informacji Jakość informacji jest cechą wieloaspektową obejmującą takie właściwości jak: Relewantność, Wiarogodność, Gdańsk, J.L. Kulikowski - INFOBAZY 2011

13 J.L. Kulikowski - INFOBAZY 2011
Jakość informacji Jakość informacji jest cechą wieloaspektową obejmującą takie właściwości jak: Relewantność, Wiarogodność, Dokładność i precyzja, Gdańsk, J.L. Kulikowski - INFOBAZY 2011

14 J.L. Kulikowski - INFOBAZY 2011
Jakość informacji Jakość informacji jest cechą wieloaspektową obejmującą takie właściwości jak: Relewantność, Wiarogodność, Dokładność i precyzja, Aktualność, Gdańsk, J.L. Kulikowski - INFOBAZY 2011

15 J.L. Kulikowski - INFOBAZY 2011
Jakość informacji Jakość informacji jest cechą wieloaspektową obejmującą takie właściwości jak: Relewantność, Wiarogodność, Dokładność i precyzja, Aktualność, Kompletność, Gdańsk, J.L. Kulikowski - INFOBAZY 2011

16 J.L. Kulikowski - INFOBAZY 2011
Jakość informacji Jakość informacji jest cechą wieloaspektową obejmującą takie właściwości jak: Relewantność, Wiarogodność, Dokładność i precyzja Aktualność, Kompletność Czytelność, itp. Gdańsk, J.L. Kulikowski - INFOBAZY 2011

17 Jakość informacji Uwaga ogólna
Cechy jakości informacji w bazach danych faktograficznych trzeba rozumieć nieco inaczej niż przyjęto w ocenie danych bibliograficznych Gdańsk, J.L. Kulikowski - INFOBAZY 2011

18 J.L. Kulikowski - INFOBAZY 2011
Relewantność danych Przydatność danych, ze względu na ich treść, dla określonego użytkownika Gdańsk, J.L. Kulikowski - INFOBAZY 2011

19 J.L. Kulikowski - INFOBAZY 2011
Relewantność danych Przydatność danych, ze względu na ich treść, dla określonego użytkownika Problemy: Potrzeby potencjalnych użytkowników nie są a priori znane twórcom baz danych; Gdańsk, J.L. Kulikowski - INFOBAZY 2011

20 J.L. Kulikowski - INFOBAZY 2011
Relewantność danych Przydatność danych, ze względu na ich treść, dla określonego użytkownika Problemy: Potrzeby potencjalnych użytkowników nie są a priori znane twórcom baz danych; Potrzeby użytkowników zmieniają się i nie są przez nich w pełni skonkretyzowane; Gdańsk, J.L. Kulikowski - INFOBAZY 2011

21 J.L. Kulikowski - INFOBAZY 2011
Relewantność danych Przydatność danych, ze względu na ich treść, dla określonego użytkownika Problemy: Potrzeby potencjalnych użytkowników nie są a priori znane twórcom baz danych; Potrzeby użytkowników zmieniają się i nie są przez nich w pełni skonkretyzowane; Potrzeby różnych użytkowników mogą być różne; Gdańsk, J.L. Kulikowski - INFOBAZY 2011

22 J.L. Kulikowski - INFOBAZY 2011
Relewantność danych Przydatność danych, ze względu na ich treść, dla określonego użytkownika Problemy: Potrzeby potencjalnych użytkowników nie są a priori znane twórcom baz danych; Potrzeby użytkowników zmieniają się i nie są przez nich w pełni skonkretyzowane; Potrzeby różnych użytkowników mogą być różne; Niektóre potrzeby użytkowników mogą być niezgodne z interesem twórców baz danych lub sprzeczne z prawem Gdańsk, J.L. Kulikowski - INFOBAZY 2011

23 J.L. Kulikowski - INFOBAZY 2011
Wiarogodność danych Poziom zaufania użytkownika do twórcy bazy danych, iż nie oferuje on danych wadliwych lub tendencyjnych Gdańsk, J.L. Kulikowski - INFOBAZY 2011

24 J.L. Kulikowski - INFOBAZY 2011
Wiarogodność danych Poziom zaufania użytkownika do twórcy bazy danych, iż nie oferuje on danych wadliwych lub tendencyjnych Problemy: Wiarogodność danych może stwierdzić jedynie jednostka niezależna od ich twórcy i dysponenta bazy danych; Gdańsk, J.L. Kulikowski - INFOBAZY 2011

25 J.L. Kulikowski - INFOBAZY 2011
Wiarogodność danych Poziom zaufania użytkownika do twórcy bazy danych, iż nie oferuje on danych wadliwych lub tendencyjnych Problemy: Wiarogodność danych może stwierdzić jedynie jednostka niezależna od ich twórcy i dysponenta bazy danych; Potwierdzenie wiarogodności może być procesem złożonym i kosztownym; powstaje problem, na kim powinien spoczywać obowiązek jego prowadzenia. Gdańsk, J.L. Kulikowski - INFOBAZY 2011

26 Dokładność i precyzja danych
Dokładność jest cechą związaną zależnością odwrotną do statystycznego błędy wyznaczenia wartości danej. Precyzja jest dokładnością zapisu danej. Dokładność Precyzja Błąd wypadkowy Gdańsk, J.L. Kulikowski - INFOBAZY 2011

27 Dokładność i precyzja danych Przykłady
1) Niska precyzja, niska dokładność: 2  2 2) Wysoka precyzja, niska dokładność:  2.5 3) Niska precyzja, wysoka dokładność : 2  0.05 4) Wysoka precyzja, wysoka dokładność: 2,75684  Gdańsk, J.L. Kulikowski - INFOBAZY 2011

28 Dokładność i precyzja danych Problemy
1) Nieznajomość istoty różnicy między dokładnością i precyzją danych; Gdańsk, J.L. Kulikowski - INFOBAZY 2011

29 Dokładność i precyzja danych Problemy
1) Przedstawianie danych liczbowych bez podania ich dokładności; 2) Nieznajomość istoty różnicy między dokładnością i precyzją danych (ich utożsamianie); Gdańsk, J.L. Kulikowski - INFOBAZY 2011

30 Dokładność i precyzja danych Problemy
1) Przedstawianie danych liczbowych bez podania ich dokładności; 2) Nieznajomość istoty różnicy między dokładnością i precyzją danych (ich utożsamianie); 3) Nieznajomość zasad kumulowania błędów przy ocenie (wyliczaniu) błędów wyrażeń zależnych od wielu czynników obarczonych błędami. Gdańsk, J.L. Kulikowski - INFOBAZY 2011

31 Dokładność i precyzja danych Ostrzeżenie
Prawo Dunsa Scotta: Z nieprawdziwych przesłanej można wysnuć wszelkie prawdziwe, jak i nieprawdziwe wnioski Wniosek: Nie ma metody pozwalającej logicznie uzasadnić prawdziwość wniosków wysnutych na podstawie niepoprawnych danych lub danych o niedostatecznej dokładności Gdańsk, J.L. Kulikowski - INFOBAZY 2011

32 J.L. Kulikowski - INFOBAZY 2011
Aktualność danych Aktualność bieżąca danej oznacza, że z dokładnością do określonego przedziału czasowego odnosi się ona do rzeczywistości w chwili pobierania danej przez użytkownika; Gdańsk, J.L. Kulikowski - INFOBAZY 2011

33 J.L. Kulikowski - INFOBAZY 2011
Aktualność danych Aktualność bieżąca (względna) danej oznacza, że z dokładnością do określonego przedziału czasowego odnosi się ona do rzeczywistości w chwili pobierania danej przez użytkownika; Aktualność absolutna danej oznacza, że odnosi się ona do stanu wiedzy o rzeczywistości w dowolnie określonym okresie czasu (w przeszłości). Gdańsk, J.L. Kulikowski - INFOBAZY 2011

34 Aktualność danych Problemy
1) Dane aktualne bieżąco są najbardziej cenne dla bieżącego podejmowania decyzji, ale zmieniają się w czasie; Gdańsk, J.L. Kulikowski - INFOBAZY 2011

35 Aktualność danych Problemy
1) Dane aktualne bieżąco są najbardziej cenne dla bieżącego podejmowania decyzji, ale zmieniają się w czasie; 2) Dane aktualne bieżąco mogą być niejednoznaczne, jeśli pochodzą z wielu źródeł, a dotyczą tego samego problemu; Gdańsk, J.L. Kulikowski - INFOBAZY 2011

36 Aktualność danych Problemy
1) Dane aktualne bieżąco są najbardziej cenne dla bieżącego podejmowania decyzji, ale zmieniają się w czasie; 2) Dane aktualne bieżąco mogą być niejednoznaczne, jeśli pochodzą z wielu źródeł, a dotyczą tego samego problemu; 3) Większość baz danych dostępnych sieciowo sugeruje ich aktualność bieżącą, ale jej nie gwarantuje (np. nie określa częstości aktualizacji). Gdańsk, J.L. Kulikowski - INFOBAZY 2011

37 J.L. Kulikowski - INFOBAZY 2011
Czytelność danych Czytelność danych oznacza możliwość ich użytkowania bez konieczności transkrypcji, translacji, przeformatowania lub jakiejkolwiek innej formy przystosowania do wymagań systemu użytkownika . Gdańsk, J.L. Kulikowski - INFOBAZY 2011

38 J.L. Kulikowski - INFOBAZY 2011
Kompletność danych Kompletność danych oznacza, że obejmują one: 1) Pełny zakres tematyczny interesujący użytkownika, 2) Liczbę wystąpień danych wystarczającą do rozwiązania problemu użytkownika, 3) Pełny opis danych (z meta-danymi) umożliwiający ich użycie. Gdańsk, J.L. Kulikowski - INFOBAZY 2011

39 Kompletność danych Problemy
1) Kompletność danych w wyżej podanym sensie w pojedynczej bazie danych można uzyskać tylko w zakresie potrzeb wynikających z wąskich problemów użytkownika; Gdańsk, J.L. Kulikowski - INFOBAZY 2011

40 Kompletność danych Problemy
1) Kompletność danych w wyżej podanym sensie w pojedynczej bazie danych można uzyskać tylko w zakresie potrzeb wynikających z wąskich problemów użytkownika; 2) W innych przypadkach użytkownik musi ponosić trud kompletowania danych pochodzących z wielu baz lokalnych, oceny ich jakości, ujednolicania formatów itp. Gdańsk, J.L. Kulikowski - INFOBAZY 2011

41 J.L. Kulikowski - INFOBAZY 2011
Czytelność danych Czytelność danych oznacza możliwość ich użytkowania bez konieczności transkrypcji, translacji, przeformatowania lub jakiejkolwiek innej formy przystosowania do wymagań systemu użytkownika . Problem: wysoka czytelność danych wymaga średniego lub wysokiego poziomu organizacji systemu informacyjnego. Gdańsk, J.L. Kulikowski - INFOBAZY 2011

42 Poziom organizacji logicznej
Organizacja logiczna zasobów informacyjnych obejmuje takie cechy jak: Gdańsk, J.L. Kulikowski - INFOBAZY 2011

43 Poziom organizacji logicznej
Organizacja logiczna zasobów informacyjnych obejmuje takie cechy jak: formaty jednostek informacyjnych (rekordów lub dokumentów), Gdańsk, J.L. Kulikowski - INFOBAZY 2011

44 Poziom organizacji logicznej
Organizacja logiczna zasobów informacyjnych obejmuje takie cechy jak: formaty jednostek informacyjnych (rekordów lub dokumentów), sposoby ich indeksowania , Gdańsk, J.L. Kulikowski - INFOBAZY 2011

45 Poziom organizacji logicznej
Organizacja logiczna zasobów informacyjnych obejmuje takie cechy jak: formaty jednostek informacyjnych (rekordów lub dokumentów), sposoby ich indeksowania , relacje formalne między jednostkami informacyjnymi, Gdańsk, J.L. Kulikowski - INFOBAZY 2011

46 J.L. Kulikowski - INFOBAZY 2011
Organizacja logiczna Organizacja logiczna zasobów informacyjnych obejmuje takie cechy jak: formaty jednostek informacyjnych (rekordów lub dokumentów), sposoby ich indeksowania , relacje formalne między jednostkami informacyjnymi, narzędzia programowe wykorzystujące w/w środki celem dostępu do informacji Gdańsk, J.L. Kulikowski - INFOBAZY 2011

47 Poziomy organizacji logicznej
I. Poziom niski: różnorodność formatów i metod indeksowania j.i. oraz mechanizmów dostępu do nich i brak możliwości ich łącznego użytkowania; Gdańsk, J.L. Kulikowski - INFOBAZY 2011

48 Poziomy organizacji logicznej
I. Poziom niski: różnorodność formatów i metod indeksowania j.i. oraz mechanizmów dostępu do nich i brak możliwości ich łącznego użytkowania; II. Poziom pośredni: różnorodność formatów i metod indeksowania, j.i. oraz mechanizmów dostępu do nich, lecz istnieją mechanizmy ich łącznego użytkowania; Gdańsk, J.L. Kulikowski - INFOBAZY 2011

49 Poziomy organizacji logicznej
I. Poziom niski: różnorodność formatów i metod indeksowania j.i. oraz mechanizmów dostępu do nich i brak możliwości ich łącznego użytkowania; II. Poziom pośredni: różnorodność formatów i metod indeksowania, j.i. oraz mechanizmów dostępu do nich, lecz istnieją mechanizmy ich łącznego użytkowania; III. Poziom wysoki: pełna jednorodność formatów i metod indeksowania j.i. oraz mechanizmów dostępu do nich, nie wymagająca żadnych środków ich dopasowywania. Gdańsk, J.L. Kulikowski - INFOBAZY 2011

50 Organizacja logiczna - problemy
1) Niski lub średni poziom organizacji logicznej nie gwarantuje użytkownikom wysokiej wiarogodności i dokładności danych; Gdańsk, J.L. Kulikowski - INFOBAZY 2011

51 Organizacja logiczna - problemy
1) Niski lub średni poziom organizacji logicznej nie gwarantuje użytkownikom wysokiej wiarogodności i dokładności danych; 2) Wysoki poziom organizacji logicznej trudno pogodzić ze spontanicznością rozwoju baz danych ogólnego dostępu. Gdańsk, J.L. Kulikowski - INFOBAZY 2011

52 Przetwarzanie semantyczne zasobów informacji
1. Ujednolicenie lub ustalenie równoważności jednostek, symboliki i terminologii w ramach danego języka; Gdańsk, J.L. Kulikowski - INFOBAZY 2011

53 Przetwarzanie semantyczne zasobów informacji
1. Ujednolicenie lub ustalenie równoważności jednostek, symboliki i terminologii w ramach danego języka; 2. Streszczenie lub indeksowanie; Gdańsk, J.L. Kulikowski - INFOBAZY 2011

54 Przetwarzanie semantyczne zasobów informacji
1. Ujednolicenie lub ustalenie równoważności jednostek, symboliki i terminologii w ramach danego języka; 2. Streszczenie lub indeksowanie; 3. Translacja; Gdańsk, J.L. Kulikowski - INFOBAZY 2011

55 Przetwarzanie semantyczne zasobów informacji
1. Ujednolicenie lub ustalenie równoważności jednostek, symboliki i terminologii w ramach danego języka; 2. Streszczenie lub indeksowanie; 3. Translacja; 4. Eksploracja danych; Gdańsk, J.L. Kulikowski - INFOBAZY 2011

56 Przetwarzanie semantyczne zasobów informacji
1. Ujednolicenie lub ustalenie równoważności jednostek, symboliki i terminologii w ramach danego języka; 2. Streszczenie lub indeksowanie; 3. Translacja; 4. Eksploracja danych; 5. Wydobywanie wiedzy; Gdańsk, J.L. Kulikowski - INFOBAZY 2011

57 Przetwarzanie semantyczne zasobów informacji
1. Ujednolicenie lub ustalenie równoważności jednostek, symboliki i terminologii w ramach danego języka; 2. Streszczenie lub indeksowanie; 3. Translacja; 4. Eksploracja danych; 5. Wydobywanie wiedzy; 6. Systematyzacja wiedzy Gdańsk, J.L. Kulikowski - INFOBAZY 2011

58 Przetwarzanie semantyczne zasobów informacji Cele ogólne
1) Zmniejszenie redundancji zasobów informacyjnych; Gdańsk, J.L. Kulikowski - INFOBAZY 2011

59 Przetwarzanie semantyczne zasobów informacji Cele ogólne
1) Zmniejszenie redundancji zasobów informacyjnych; 2) Ułatwienie podejmowania decyzji; Gdańsk, J.L. Kulikowski - INFOBAZY 2011

60 Przetwarzanie semantyczne zasobów informacji Cele ogólne
1) Zmniejszenie redundancji zasobów informacyjnych; 2) Ułatwienie podejmowania decyzji; 3) Wzbogacenie ogólnych zasobów wiedzy. Gdańsk, J.L. Kulikowski - INFOBAZY 2011

61 J.L. Kulikowski - INFOBAZY 2011
Eksploracja danych Eksploracja danych (ang. data mining, DM) - dział informatyki zajmujący się metodami i środkami programowymi wydobywania istotnych (z punktu widzenia określonego użytkownika) informacji zawartych w niejawnej formie w zbiorach danych. Gdańsk, J.L. Kulikowski - INFOBAZY 2011

62 J.L. Kulikowski - INFOBAZY 2011
Eksploracja danych Eksploracja danych (ang. data mining, DM) - dział informatyki zajmujący się metodami i środkami programowymi wydobywania istotnych (z punktu widzenia określonego użytkownika) informacji zawartych w niejawnej formie w zbiorach danych. Dotyczy ona danych: Istotnych dla użytkownika; Nie występujących w postaci jawnej; Występujących w dokumentach w różnorodnej postaci lub w dokumentach różnych typów Gdańsk, J.L. Kulikowski - INFOBAZY 2011

63 Efekty eksploracji danych
Wyselekcjonowane podzbiory elementów (np. obiektów wzorcowych); Relacje dwu- lub wieloargumentowe (podobieństwa, uporządkowania, drzewiastych struktur klasyfikacyjnych itp.), hiper-relacje; Implikacje logiczne; Modele geometryczne; Zależności funkcyjne; Widma harmoniczne(lub inne, funkcyjne); Histogramy i ich parametry (wartości średnie, wariancje, momenty wyższego rzędu, macierze kowariancji itp.) oraz oparte na nich aproksymujące rozkłady prawdopodobieństwa, funkcje regresji itp.; Funkcje przynależności do zbiorów rozmytych, relacji rozmytych itp.; Stwierdzenia formułowane w kategoriach logik nieklasycznych (wielowartościowych, modalnych, relatywnych, czasowych itp.). Gdańsk, J.L. Kulikowski - INFOBAZY 2011

64 J.L. Kulikowski - INFOBAZY 2011
Wydobywanie wiedzy Wydobywanie wiedzy z danych (ang. knowledge discovery in databases, KDD) - zorganizowane działanie zmierzające do wykrywania w dużych i złożonych zbiorach danych obiektywnie w nich występujących, wcześniej nierozpoznanych, praktycznie użytecznych i łatwo przez użytkownika interpretowalnych struktur danych. Gdańsk, J.L. Kulikowski - INFOBAZY 2011

65 Zaawansowana analiza semantyczna Przykład
Eksploracja danych: ujawnienie i wyliczenie korelacji między zawartością cholesterolu LDL w krwi pacjentów i ich średnim wynagrodzeniem; Wydobywanie wiedzy: podział pacjentów na kategorie pracownicze (wg. zawodu i poziomu wykształcenia) i wykazanie, że na poziom cholesterolu LDL bezpośredni wpływ ma różny tryb życia domowego w poszczególnych kategoriach pracowniczych; Systematyzacja: konfrontowanie wydobytych elementów wiedzy z innymi, łączenie ich w jednostki nadrzędne i uogólnianie. Gdańsk, J.L. Kulikowski - INFOBAZY 2011

66 Metodologia projektowania systemu eksploracji danych Przykład: system CRISP-DM
Analiza sytuacyjna Analiza danych Przygotowanie danych Budowa modelu Ocena modelu Upowszechnienie modelu Gdańsk, J.L. Kulikowski - INFOBAZY 2011

67 Projektowanie systemu eksploracji danych Problemy
1) Analiza sytuacyjna wymaga oceny aktualnych i przyszłych potrzeb informacyjnych środowiska użytkowników; 2) Analiza danych wymaga krytycznej oceny dostępnych danych pod kątem poprzednio omówionych cech ich jakości; 3) Przygotowanie danych oznacza ich zbieranie , selekcję i dostosowywanie do formalnych wymagań modelu przetwarzania. Gdańsk, J.L. Kulikowski - INFOBAZY 2011

68 Modele eksploracji danych
Środki używane do budowy modeli: Klasyczna teoria zbiorów i relacji; Klasyczny rachunek zdań; Geometria analityczna; Analiza harmoniczna; Teoria aproksymacji; Statystyka matematyczną; Teoria zbiorów rozmytych i przybliżonych; Logiki nieklasyczne inne. Gdańi, J.L. Kulikowski - INFOBAZY 2011

69 Typowe błędy popełniane przy eksploracji danych
przenoszenie statystycznych modeli regresji, estymacji lub weryfikacji hipotez opracowanych dla zmiennych losowych o rozkładzie normalnym na zmienne, których rozkład ewidentnie odbiega od normalnego (na przykład, odznacza się silną asymetrią); stosowanie metod klasyfikacji obiektów opartych na miarach odległości (np. euklidesowej, Manhattan, Czebyszewa i in.) do obiektów o cechach mających różne miana fizyczne i mogą być wyrażane w różnie dobieranych jednostkach (co wpływa na relatywny wpływ różnych składowych na wynik klasyfikacji); niewłaściwa interpretacja niektórych modeli (np. krzywej regresji jako przyczynowo-skutkowej zależności pary zmiennych, gdy są one jedynie współzależne od trzeciej zmiennej). Gdańsk, J.L. Kulikowski - INFOBAZY 2011

70 J.L. Kulikowski - INFOBAZY 2011
Wnioski końcowe Systemy eksploracji danych i wydobywania wiedzy odgrywają coraz większą rolę w badaniach naukowych i w licznych zastosowaniach; Gdańsk, J.L. Kulikowski - INFOBAZY 2011

71 J.L. Kulikowski - INFOBAZY 2011
Wnioski końcowe 1) Systemy eksploracji danych i wydobywania wiedzy odgrywają coraz większą rolę w badaniach naukowych i w licznych zastosowaniach; 2) Pełna przydatność takich systemów w istotny sposób zależy od zapewnienia wysokiej jakości danych wejściowych Gdańsk, J.L. Kulikowski - INFOBAZY 2011

72 J.L. Kulikowski - INFOBAZY 2011
Wnioski końcowe 1) Systemy eksploracji danych i wydobywania wiedzy odgrywają coraz większą rolę w badaniach naukowych i w licznych zastosowaniach; 2) Pełna przydatność takich systemów w istotny sposób zależy od zapewnienia wysokiej jakości danych wejściowych 3) Zapewnienie wysokiej jakości danych wejściowych wymaga opracowania i wdrożenia odpowiednich środków technicznych, norm, a także użycia środków organizacyjnych i administracyjnych. Gdańsk, J.L. Kulikowski - INFOBAZY 2011

73 J.L. Kulikowski - INFOBAZY 2011
Wnioski końcowe 1) Systemy eksploracji danych i wydobywania wiedzy odgrywają coraz większą rolę w badaniach naukowych i w licznych zastosowaniach; 2) Pełna przydatność takich systemów w istotny sposób zależy od zapewnienia wysokiej jakości danych wejściowych 3) Zapewnienie wysokiej jakości danych wejściowych wymaga opracowania i wdrożenia odpowiednich środków technicznych, norm, a także użycia środków organizacyjnych i administracyjnych. 4) Działalność komitetów CODATA może w istotny sposób przyczynić się do opracowania i wdrożenia takich środków. Gdańsk, J.L. Kulikowski - INFOBAZY 2011

74 J.L. Kulikowski - INFOBAZY 2011
Dziękuję za uwagę! Gdańsk, J.L. Kulikowski - INFOBAZY 2011


Pobierz ppt "Problemy metodologiczne i kierunki rozwojowe wydobywania wiedzy z danych Juliusz L. Kulikowski Instytut Biocybernetyki i Inżynierii Biomedycznej im."

Podobne prezentacje


Reklamy Google