Problemy metodologiczne i kierunki rozwojowe wydobywania wiedzy z danych Juliusz L. Kulikowski Instytut Biocybernetyki i Inżynierii Biomedycznej im.

Slides:



Advertisements
Podobne prezentacje
Badania statystyczne Wykłady 1-2 © Leszek Smolarek.
Advertisements

Ocena dokładności i trafności prognoz
PODZIAŁ STATYSTYKI STATYSTYKA STATYSTYKA MATEMATYCZNA STATYSTYKA
Analiza współzależności zjawisk
Macierze, wyznaczniki, odwracanie macierzy i wzory Cramera
BUDOWA MODELU EKONOMETRYCZNEGO
Badania operacyjne. Wykład 1
PROF. DR HAB. WIESŁAWA PRZYBYLSKA-KAPUŚCIŃSKA
Jak mierzyć asymetrię zjawiska?
Statystyka w doświadczalnictwie
Podstawowe pojęcia prognozowania i symulacji na podstawie modeli ekonometrycznych Przewidywaniem nazywać będziemy wnioskowanie o zdarzeniach nieznanych.
Ekonometria wykladowca: dr Michał Karpuk
Jakość sieci geodezyjnych. Pomiary wykonane z największą starannością, nie dostarczają nam prawdziwej wartości mierzonej wielkości, lecz są zwykle obarczone.
Analiza korelacji.
Prognozowanie na podstawie modelu ekonometrycznego
Wykład 6 Wojciech Pieprzyca
Jakość systemów informacyjnych (aspekt eksploatacyjny)
Program przedmiotu “Metody statystyczne w chemii”
Rozkład normalny Cecha posiada rozkład normalny jeśli na jej wielkość ma wpływ wiele niezależnych czynników, a wpływ każdego z nich nie jest zbyt duży.
Wykład 2 Cykl życia systemu informacyjnego
Średnie i miary zmienności
Zapis pionowy w rekordach bibliograficznych katalogu online BPB
Analiza współzależności cech statystycznych
BADANIE STATYSTYCZNE Badanie statystyczne to proces pozyskiwania danych na temat rozkładu cechy statystycznej w populacji. Badanie może mieć charakter:
Wanda Klenczon Biblioteka Narodowa
Elementy Rachunku Prawdopodobieństwa i Statystyki
Hipotezy statystyczne
WYNIKU POMIARU (ANALIZY)
Finanse 2009/2010 dr Grzegorz Szafrański pokój B106 Termin konsultacji poniedziałek:
Elementy Rachunku Prawdopodobieństwa i Statystyki
Kilka wybranych uzupelnień
Wybrane zagadnienia relacyjnych baz danych
Model relacyjny.
OCHRONA DANYCH OSOBOWYCH Dr hab. Mariusz Jagielski
Planowanie badań i analiza wyników
Rozkład jazdy bez tajemnic, czyli…
Tablice przestawcze siły hamowania w wagonach towarowych
MS Excel - wspomaganie decyzji
Rozkład jazdy bez tajemnic, czyli…
III EKSPLORACJA DANYCH
VI EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja
Politechniki Poznańskiej
IV EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja
Henryk Rusinowski, Marcin Plis
Cele kształcenia.
Wnioskowanie statystyczne
Systemy informatyczne
Statystyka medyczna Piotr Kozłowski
Metody Matematyczne w Inżynierii Chemicznej Podstawy obliczeń statystycznych.
D. Ciołek EKONOMETRIA – wykład 5
ZINTEGROWANE SYSTEMY ZARZĄDZANIA
Automatyczna interpretacja pytań i udzielanie odpowiedzi (Question & Answering)
Program przedmiotu “Opracowywanie danych w chemii” 1.Wprowadzenie: przegląd rodzajów danych oraz metod ich opracowywania. 2.Podstawowe pojęcia rachunku.
Eksploatacja zasobów informatycznych przedsiębiorstwa.
Warstwowe sieci jednokierunkowe – perceptrony wielowarstwowe
Tryby adresowania i formaty rozkazów mikroprocesora
Nikogo nie trzeba przekonywać, że eksperymenty wykonywane samodzielnie przez ucznia czy prezentowane przez nauczyciela sprawiają, że lekcje są bardziej.
KNW - wykład 3 LOGIKA MODALNA.
Jak mierzyć asymetrię zjawiska? Wykład 5. Miary jednej cechy  Miary poziomu  Miary dyspersji (zmienności, zróżnicowania, rozproszenia)  Miary asymetrii.
Statystyczna analiza danych
Treść dzisiejszego wykładu l Weryfikacja statystyczna modelu ekonometrycznego –błędy szacunku parametrów, –istotność zmiennych objaśniających, –autokorelacja,
Przeprowadzenie badań niewyczerpujących, (częściowych – prowadzonych na podstawie próby losowej), nie daje podstaw do formułowania stanowczych stwierdzeń.
Treść dzisiejszego wykładu l Wprowadzenie do ekonometrii. l Model ekonomiczny i ekonometryczny. l Klasyfikacja modeli ekonometrycznych. l Klasyfikacja.
Człowiek – najlepsza inwestycja
STATYSTYKA – kurs podstawowy wykład 11
jest najbardziej efektywną i godną zaufania metodą,
{ Wsparcie informacyjne dla zarządzania strategicznego Tereshkun Volodymyr.
Selekcja danych Korelacja.
Korelacja i regresja liniowa
Modele baz danych - spojrzenie na poziom fizyczny
Zapis prezentacji:

Problemy metodologiczne i kierunki rozwojowe wydobywania wiedzy z danych Juliusz L. Kulikowski Instytut Biocybernetyki i Inżynierii Biomedycznej im. M. Nałęcza PAN, ul. Ks, Trojdena 4, 02-109 Warszawa

J.L. Kulikowski - INFOBAZY 2011 Plan prezentacji 1. Wstęp – systemy informacji 2. Zasoby informacji 3. Jakość informacji 4. Organizacja logiczna zasobów informacji 5. Semantyczne przetwarzanie 6. Problemy budowy systemów eksploracji i wydobywania wiedzy z danych 7. Wnioski końcowe Gdańsk, 5-7.09.2011 J.L. Kulikowski - INFOBAZY 2011

Systemy informacji S = [ZI, ZS, ZLP, ZO], Systemem informacji nazywamy zespół elementów: S = [ZI, ZS, ZLP, ZO], gdzie: ZI – zasoby informacyjne, ZS – zasoby sprzętowe, ZLP – zasoby logiczno-programowe, ZO – zasady organizacji, działający w sposób umożliwiający gromadzenie określonego rodzaju informacji i ich udostępnianie użytkownikom. Gdańsk, 5-7.09.2011 J.L. Kulikowski - INFOBAZY 2011

Taksonomia systemów informacyjnych Zasoby informacyjne monotematyczne wielotematyczne Gdańsk, 5-7.09.2011 J.L. Kulikowski - INFOBAZY 2011

Taksonomia systemów informacyjnych Zasoby informacyjne monotematyczne wielotematyczne Zasoby sprzętowe scentralizowane rozproszone Gdańsk, 5-7.09.2011 J.L. Kulikowski - INFOBAZY 2011

Taksonomia systemów informacyjnych Zasoby informacyjne monotematyczne wielotematyczne Zasoby sprzętowe scentralizowane rozproszone Zasoby logiczno-programowe ubogie (brak automatyzacji) średnie (automatyzacja częściowa) bogate (wysoki poziom automatyzacji Gdańsk, 5-7.09.2011 J.L. Kulikowski - INFOBAZY 2011

Taksonomia systemów informacyjnych Zasoby informacyjne monotematyczne wielotematyczne Zasoby sprzętowe scentralizowane rozproszone Zasoby logiczno-programowe ubogie (brak automatyzacji) średnie (automatyzacja częściowa) bogate (wysoki poziom automatyzacji Zasady organizacyjne jednorodne zróżnicowane Gdańsk, 5-7.09.2011 J.L. Kulikowski - INFOBAZY 2011

J.L. Kulikowski - INFOBAZY 2011 Zasoby informacyjne Zasobów informacyjnych nie traktujemy jako prosty zbiór zapisów w bazach danych, lecz także jako system, który tworzą zapisy lub dokumenty informacyjne i wiążące je relacje typu logicznego i semantycznego. Projektowanie zasobów informacyjnych systemów jest przedmiotem intensywnie obecnie rozwijanej dyscypliny naukowo-technicznej zwanej inżynierią wiedzy. Inżynieria wiedzy koncentruje uwagę na strukturze logicznej, zawartości semantycznej i wartości użytkowej zasobów informacyjnych baz wiedzy. Gdańsk, 5-7.09.2011 J.L. Kulikowski - INFOBAZY 2011

Kryteria oceny zasobów informacyjnych . Gdańsk, 5-7.09.2011 J.L. Kulikowski - INFOBAZY 2011

J.L. Kulikowski - INFOBAZY 2011 Jakość informacji Jakość informacji jest cechą wieloaspektową obejmującą takie właściwości jak: Gdańsk, 5-7.09.2011 J.L. Kulikowski - INFOBAZY 2011

J.L. Kulikowski - INFOBAZY 2011 Jakość informacji Jakość informacji jest cechą wieloaspektową obejmującą takie właściwości jak: Relewantność, Gdańsk, 5-7.09.2011 J.L. Kulikowski - INFOBAZY 2011

J.L. Kulikowski - INFOBAZY 2011 Jakość informacji Jakość informacji jest cechą wieloaspektową obejmującą takie właściwości jak: Relewantność, Wiarogodność, Gdańsk, 5-7.09.2011 J.L. Kulikowski - INFOBAZY 2011

J.L. Kulikowski - INFOBAZY 2011 Jakość informacji Jakość informacji jest cechą wieloaspektową obejmującą takie właściwości jak: Relewantność, Wiarogodność, Dokładność i precyzja, Gdańsk, 5-7.09.2011 J.L. Kulikowski - INFOBAZY 2011

J.L. Kulikowski - INFOBAZY 2011 Jakość informacji Jakość informacji jest cechą wieloaspektową obejmującą takie właściwości jak: Relewantność, Wiarogodność, Dokładność i precyzja, Aktualność, Gdańsk, 5-7.09.2011 J.L. Kulikowski - INFOBAZY 2011

J.L. Kulikowski - INFOBAZY 2011 Jakość informacji Jakość informacji jest cechą wieloaspektową obejmującą takie właściwości jak: Relewantność, Wiarogodność, Dokładność i precyzja, Aktualność, Kompletność, Gdańsk, 5-7.09.2011 J.L. Kulikowski - INFOBAZY 2011

J.L. Kulikowski - INFOBAZY 2011 Jakość informacji Jakość informacji jest cechą wieloaspektową obejmującą takie właściwości jak: Relewantność, Wiarogodność, Dokładność i precyzja Aktualność, Kompletność Czytelność, itp. Gdańsk, 5-7.09.2011 J.L. Kulikowski - INFOBAZY 2011

Jakość informacji Uwaga ogólna Cechy jakości informacji w bazach danych faktograficznych trzeba rozumieć nieco inaczej niż przyjęto w ocenie danych bibliograficznych Gdańsk, 5-7.09.2011 J.L. Kulikowski - INFOBAZY 2011

J.L. Kulikowski - INFOBAZY 2011 Relewantność danych Przydatność danych, ze względu na ich treść, dla określonego użytkownika Gdańsk, 5-7.09.2011 J.L. Kulikowski - INFOBAZY 2011

J.L. Kulikowski - INFOBAZY 2011 Relewantność danych Przydatność danych, ze względu na ich treść, dla określonego użytkownika Problemy: Potrzeby potencjalnych użytkowników nie są a priori znane twórcom baz danych; Gdańsk, 5-7.09.2011 J.L. Kulikowski - INFOBAZY 2011

J.L. Kulikowski - INFOBAZY 2011 Relewantność danych Przydatność danych, ze względu na ich treść, dla określonego użytkownika Problemy: Potrzeby potencjalnych użytkowników nie są a priori znane twórcom baz danych; Potrzeby użytkowników zmieniają się i nie są przez nich w pełni skonkretyzowane; Gdańsk, 5-7.09.2011 J.L. Kulikowski - INFOBAZY 2011

J.L. Kulikowski - INFOBAZY 2011 Relewantność danych Przydatność danych, ze względu na ich treść, dla określonego użytkownika Problemy: Potrzeby potencjalnych użytkowników nie są a priori znane twórcom baz danych; Potrzeby użytkowników zmieniają się i nie są przez nich w pełni skonkretyzowane; Potrzeby różnych użytkowników mogą być różne; Gdańsk, 5-7.09.2011 J.L. Kulikowski - INFOBAZY 2011

J.L. Kulikowski - INFOBAZY 2011 Relewantność danych Przydatność danych, ze względu na ich treść, dla określonego użytkownika Problemy: Potrzeby potencjalnych użytkowników nie są a priori znane twórcom baz danych; Potrzeby użytkowników zmieniają się i nie są przez nich w pełni skonkretyzowane; Potrzeby różnych użytkowników mogą być różne; Niektóre potrzeby użytkowników mogą być niezgodne z interesem twórców baz danych lub sprzeczne z prawem Gdańsk, 5-7.09.2011 J.L. Kulikowski - INFOBAZY 2011

J.L. Kulikowski - INFOBAZY 2011 Wiarogodność danych Poziom zaufania użytkownika do twórcy bazy danych, iż nie oferuje on danych wadliwych lub tendencyjnych Gdańsk, 5-7.09.2011 J.L. Kulikowski - INFOBAZY 2011

J.L. Kulikowski - INFOBAZY 2011 Wiarogodność danych Poziom zaufania użytkownika do twórcy bazy danych, iż nie oferuje on danych wadliwych lub tendencyjnych Problemy: Wiarogodność danych może stwierdzić jedynie jednostka niezależna od ich twórcy i dysponenta bazy danych; Gdańsk, 5-7.09.2011 J.L. Kulikowski - INFOBAZY 2011

J.L. Kulikowski - INFOBAZY 2011 Wiarogodność danych Poziom zaufania użytkownika do twórcy bazy danych, iż nie oferuje on danych wadliwych lub tendencyjnych Problemy: Wiarogodność danych może stwierdzić jedynie jednostka niezależna od ich twórcy i dysponenta bazy danych; Potwierdzenie wiarogodności może być procesem złożonym i kosztownym; powstaje problem, na kim powinien spoczywać obowiązek jego prowadzenia. Gdańsk, 5-7.09.2011 J.L. Kulikowski - INFOBAZY 2011

Dokładność i precyzja danych Dokładność jest cechą związaną zależnością odwrotną do statystycznego błędy wyznaczenia wartości danej. Precyzja jest dokładnością zapisu danej. Dokładność Precyzja Błąd wypadkowy Gdańsk, 5-7.09.2011 J.L. Kulikowski - INFOBAZY 2011

Dokładność i precyzja danych Przykłady 1) Niska precyzja, niska dokładność: 2  2 2) Wysoka precyzja, niska dokładność: 2.75684  2.5 3) Niska precyzja, wysoka dokładność : 2  0.05 4) Wysoka precyzja, wysoka dokładność: 2,75684  0.00002 Gdańsk, 5-7.09.2011 J.L. Kulikowski - INFOBAZY 2011

Dokładność i precyzja danych Problemy 1) Nieznajomość istoty różnicy między dokładnością i precyzją danych; Gdańsk, 5-7.09.2011 J.L. Kulikowski - INFOBAZY 2011

Dokładność i precyzja danych Problemy 1) Przedstawianie danych liczbowych bez podania ich dokładności; 2) Nieznajomość istoty różnicy między dokładnością i precyzją danych (ich utożsamianie); Gdańsk, 5-7.09.2011 J.L. Kulikowski - INFOBAZY 2011

Dokładność i precyzja danych Problemy 1) Przedstawianie danych liczbowych bez podania ich dokładności; 2) Nieznajomość istoty różnicy między dokładnością i precyzją danych (ich utożsamianie); 3) Nieznajomość zasad kumulowania błędów przy ocenie (wyliczaniu) błędów wyrażeń zależnych od wielu czynników obarczonych błędami. Gdańsk, 5-7.09.2011 J.L. Kulikowski - INFOBAZY 2011

Dokładność i precyzja danych Ostrzeżenie Prawo Dunsa Scotta: Z nieprawdziwych przesłanej można wysnuć wszelkie prawdziwe, jak i nieprawdziwe wnioski Wniosek: Nie ma metody pozwalającej logicznie uzasadnić prawdziwość wniosków wysnutych na podstawie niepoprawnych danych lub danych o niedostatecznej dokładności Gdańsk, 5-7.09.2011 J.L. Kulikowski - INFOBAZY 2011

J.L. Kulikowski - INFOBAZY 2011 Aktualność danych Aktualność bieżąca danej oznacza, że z dokładnością do określonego przedziału czasowego odnosi się ona do rzeczywistości w chwili pobierania danej przez użytkownika; Gdańsk, 5-7.09.2011 J.L. Kulikowski - INFOBAZY 2011

J.L. Kulikowski - INFOBAZY 2011 Aktualność danych Aktualność bieżąca (względna) danej oznacza, że z dokładnością do określonego przedziału czasowego odnosi się ona do rzeczywistości w chwili pobierania danej przez użytkownika; Aktualność absolutna danej oznacza, że odnosi się ona do stanu wiedzy o rzeczywistości w dowolnie określonym okresie czasu (w przeszłości). Gdańsk, 5-7.09.2011 J.L. Kulikowski - INFOBAZY 2011

Aktualność danych Problemy 1) Dane aktualne bieżąco są najbardziej cenne dla bieżącego podejmowania decyzji, ale zmieniają się w czasie; Gdańsk, 5-7.09.2011 J.L. Kulikowski - INFOBAZY 2011

Aktualność danych Problemy 1) Dane aktualne bieżąco są najbardziej cenne dla bieżącego podejmowania decyzji, ale zmieniają się w czasie; 2) Dane aktualne bieżąco mogą być niejednoznaczne, jeśli pochodzą z wielu źródeł, a dotyczą tego samego problemu; Gdańsk, 5-7.09.2011 J.L. Kulikowski - INFOBAZY 2011

Aktualność danych Problemy 1) Dane aktualne bieżąco są najbardziej cenne dla bieżącego podejmowania decyzji, ale zmieniają się w czasie; 2) Dane aktualne bieżąco mogą być niejednoznaczne, jeśli pochodzą z wielu źródeł, a dotyczą tego samego problemu; 3) Większość baz danych dostępnych sieciowo sugeruje ich aktualność bieżącą, ale jej nie gwarantuje (np. nie określa częstości aktualizacji). Gdańsk, 5-7.09.2011 J.L. Kulikowski - INFOBAZY 2011

J.L. Kulikowski - INFOBAZY 2011 Czytelność danych Czytelność danych oznacza możliwość ich użytkowania bez konieczności transkrypcji, translacji, przeformatowania lub jakiejkolwiek innej formy przystosowania do wymagań systemu użytkownika . Gdańsk, 5-7.09.2011 J.L. Kulikowski - INFOBAZY 2011

J.L. Kulikowski - INFOBAZY 2011 Kompletność danych Kompletność danych oznacza, że obejmują one: 1) Pełny zakres tematyczny interesujący użytkownika, 2) Liczbę wystąpień danych wystarczającą do rozwiązania problemu użytkownika, 3) Pełny opis danych (z meta-danymi) umożliwiający ich użycie. Gdańsk, 5-7.09.2011 J.L. Kulikowski - INFOBAZY 2011

Kompletność danych Problemy 1) Kompletność danych w wyżej podanym sensie w pojedynczej bazie danych można uzyskać tylko w zakresie potrzeb wynikających z wąskich problemów użytkownika; Gdańsk, 5-7.09.2011 J.L. Kulikowski - INFOBAZY 2011

Kompletność danych Problemy 1) Kompletność danych w wyżej podanym sensie w pojedynczej bazie danych można uzyskać tylko w zakresie potrzeb wynikających z wąskich problemów użytkownika; 2) W innych przypadkach użytkownik musi ponosić trud kompletowania danych pochodzących z wielu baz lokalnych, oceny ich jakości, ujednolicania formatów itp. Gdańsk, 5-7.09.2011 J.L. Kulikowski - INFOBAZY 2011

J.L. Kulikowski - INFOBAZY 2011 Czytelność danych Czytelność danych oznacza możliwość ich użytkowania bez konieczności transkrypcji, translacji, przeformatowania lub jakiejkolwiek innej formy przystosowania do wymagań systemu użytkownika . Problem: wysoka czytelność danych wymaga średniego lub wysokiego poziomu organizacji systemu informacyjnego. Gdańsk, 5-7.09.2011 J.L. Kulikowski - INFOBAZY 2011

Poziom organizacji logicznej Organizacja logiczna zasobów informacyjnych obejmuje takie cechy jak: Gdańsk, 5-7.09.2011 J.L. Kulikowski - INFOBAZY 2011

Poziom organizacji logicznej Organizacja logiczna zasobów informacyjnych obejmuje takie cechy jak: formaty jednostek informacyjnych (rekordów lub dokumentów), Gdańsk, 5-7.09.2011 J.L. Kulikowski - INFOBAZY 2011

Poziom organizacji logicznej Organizacja logiczna zasobów informacyjnych obejmuje takie cechy jak: formaty jednostek informacyjnych (rekordów lub dokumentów), sposoby ich indeksowania , Gdańsk, 5-7.09.2011 J.L. Kulikowski - INFOBAZY 2011

Poziom organizacji logicznej Organizacja logiczna zasobów informacyjnych obejmuje takie cechy jak: formaty jednostek informacyjnych (rekordów lub dokumentów), sposoby ich indeksowania , relacje formalne między jednostkami informacyjnymi, Gdańsk, 5-7.09.2011 J.L. Kulikowski - INFOBAZY 2011

J.L. Kulikowski - INFOBAZY 2011 Organizacja logiczna Organizacja logiczna zasobów informacyjnych obejmuje takie cechy jak: formaty jednostek informacyjnych (rekordów lub dokumentów), sposoby ich indeksowania , relacje formalne między jednostkami informacyjnymi, narzędzia programowe wykorzystujące w/w środki celem dostępu do informacji Gdańsk, 5-7.09.2011 J.L. Kulikowski - INFOBAZY 2011

Poziomy organizacji logicznej I. Poziom niski: różnorodność formatów i metod indeksowania j.i. oraz mechanizmów dostępu do nich i brak możliwości ich łącznego użytkowania; Gdańsk, 5-7.09.2011 J.L. Kulikowski - INFOBAZY 2011

Poziomy organizacji logicznej I. Poziom niski: różnorodność formatów i metod indeksowania j.i. oraz mechanizmów dostępu do nich i brak możliwości ich łącznego użytkowania; II. Poziom pośredni: różnorodność formatów i metod indeksowania, j.i. oraz mechanizmów dostępu do nich, lecz istnieją mechanizmy ich łącznego użytkowania; Gdańsk, 5-7.09.2011 J.L. Kulikowski - INFOBAZY 2011

Poziomy organizacji logicznej I. Poziom niski: różnorodność formatów i metod indeksowania j.i. oraz mechanizmów dostępu do nich i brak możliwości ich łącznego użytkowania; II. Poziom pośredni: różnorodność formatów i metod indeksowania, j.i. oraz mechanizmów dostępu do nich, lecz istnieją mechanizmy ich łącznego użytkowania; III. Poziom wysoki: pełna jednorodność formatów i metod indeksowania j.i. oraz mechanizmów dostępu do nich, nie wymagająca żadnych środków ich dopasowywania. Gdańsk, 5-7.09.2011 J.L. Kulikowski - INFOBAZY 2011

Organizacja logiczna - problemy 1) Niski lub średni poziom organizacji logicznej nie gwarantuje użytkownikom wysokiej wiarogodności i dokładności danych; Gdańsk, 5-7.09.2011 J.L. Kulikowski - INFOBAZY 2011

Organizacja logiczna - problemy 1) Niski lub średni poziom organizacji logicznej nie gwarantuje użytkownikom wysokiej wiarogodności i dokładności danych; 2) Wysoki poziom organizacji logicznej trudno pogodzić ze spontanicznością rozwoju baz danych ogólnego dostępu. Gdańsk, 5-7.09.2011 J.L. Kulikowski - INFOBAZY 2011

Przetwarzanie semantyczne zasobów informacji 1. Ujednolicenie lub ustalenie równoważności jednostek, symboliki i terminologii w ramach danego języka; Gdańsk, 5-7.09.2011 J.L. Kulikowski - INFOBAZY 2011

Przetwarzanie semantyczne zasobów informacji 1. Ujednolicenie lub ustalenie równoważności jednostek, symboliki i terminologii w ramach danego języka; 2. Streszczenie lub indeksowanie; Gdańsk, 5-7.09.2011 J.L. Kulikowski - INFOBAZY 2011

Przetwarzanie semantyczne zasobów informacji 1. Ujednolicenie lub ustalenie równoważności jednostek, symboliki i terminologii w ramach danego języka; 2. Streszczenie lub indeksowanie; 3. Translacja; Gdańsk, 5-7.09.2011 J.L. Kulikowski - INFOBAZY 2011

Przetwarzanie semantyczne zasobów informacji 1. Ujednolicenie lub ustalenie równoważności jednostek, symboliki i terminologii w ramach danego języka; 2. Streszczenie lub indeksowanie; 3. Translacja; 4. Eksploracja danych; Gdańsk, 5-7.09.2011 J.L. Kulikowski - INFOBAZY 2011

Przetwarzanie semantyczne zasobów informacji 1. Ujednolicenie lub ustalenie równoważności jednostek, symboliki i terminologii w ramach danego języka; 2. Streszczenie lub indeksowanie; 3. Translacja; 4. Eksploracja danych; 5. Wydobywanie wiedzy; Gdańsk, 5-7.09.2011 J.L. Kulikowski - INFOBAZY 2011

Przetwarzanie semantyczne zasobów informacji 1. Ujednolicenie lub ustalenie równoważności jednostek, symboliki i terminologii w ramach danego języka; 2. Streszczenie lub indeksowanie; 3. Translacja; 4. Eksploracja danych; 5. Wydobywanie wiedzy; 6. Systematyzacja wiedzy Gdańsk, 5-7.09.2011 J.L. Kulikowski - INFOBAZY 2011

Przetwarzanie semantyczne zasobów informacji Cele ogólne 1) Zmniejszenie redundancji zasobów informacyjnych; Gdańsk, 5-7.09.2011 J.L. Kulikowski - INFOBAZY 2011

Przetwarzanie semantyczne zasobów informacji Cele ogólne 1) Zmniejszenie redundancji zasobów informacyjnych; 2) Ułatwienie podejmowania decyzji; Gdańsk, 5-7.09.2011 J.L. Kulikowski - INFOBAZY 2011

Przetwarzanie semantyczne zasobów informacji Cele ogólne 1) Zmniejszenie redundancji zasobów informacyjnych; 2) Ułatwienie podejmowania decyzji; 3) Wzbogacenie ogólnych zasobów wiedzy. Gdańsk, 5-7.09.2011 J.L. Kulikowski - INFOBAZY 2011

J.L. Kulikowski - INFOBAZY 2011 Eksploracja danych Eksploracja danych (ang. data mining, DM) - dział informatyki zajmujący się metodami i środkami programowymi wydobywania istotnych (z punktu widzenia określonego użytkownika) informacji zawartych w niejawnej formie w zbiorach danych. Gdańsk, 5-7.09.2011 J.L. Kulikowski - INFOBAZY 2011

J.L. Kulikowski - INFOBAZY 2011 Eksploracja danych Eksploracja danych (ang. data mining, DM) - dział informatyki zajmujący się metodami i środkami programowymi wydobywania istotnych (z punktu widzenia określonego użytkownika) informacji zawartych w niejawnej formie w zbiorach danych. Dotyczy ona danych: Istotnych dla użytkownika; Nie występujących w postaci jawnej; Występujących w dokumentach w różnorodnej postaci lub w dokumentach różnych typów Gdańsk, 5-7.09.2011 J.L. Kulikowski - INFOBAZY 2011

Efekty eksploracji danych Wyselekcjonowane podzbiory elementów (np. obiektów wzorcowych); Relacje dwu- lub wieloargumentowe (podobieństwa, uporządkowania, drzewiastych struktur klasyfikacyjnych itp.), hiper-relacje; Implikacje logiczne; Modele geometryczne; Zależności funkcyjne; Widma harmoniczne(lub inne, funkcyjne); Histogramy i ich parametry (wartości średnie, wariancje, momenty wyższego rzędu, macierze kowariancji itp.) oraz oparte na nich aproksymujące rozkłady prawdopodobieństwa, funkcje regresji itp.; Funkcje przynależności do zbiorów rozmytych, relacji rozmytych itp.; Stwierdzenia formułowane w kategoriach logik nieklasycznych (wielowartościowych, modalnych, relatywnych, czasowych itp.).   Gdańsk, 5-7.09.2011 J.L. Kulikowski - INFOBAZY 2011

J.L. Kulikowski - INFOBAZY 2011 Wydobywanie wiedzy Wydobywanie wiedzy z danych (ang. knowledge discovery in databases, KDD) - zorganizowane działanie zmierzające do wykrywania w dużych i złożonych zbiorach danych obiektywnie w nich występujących, wcześniej nierozpoznanych, praktycznie użytecznych i łatwo przez użytkownika interpretowalnych struktur danych. Gdańsk, 5-7.09.2011 J.L. Kulikowski - INFOBAZY 2011

Zaawansowana analiza semantyczna Przykład Eksploracja danych: ujawnienie i wyliczenie korelacji między zawartością cholesterolu LDL w krwi pacjentów i ich średnim wynagrodzeniem; Wydobywanie wiedzy: podział pacjentów na kategorie pracownicze (wg. zawodu i poziomu wykształcenia) i wykazanie, że na poziom cholesterolu LDL bezpośredni wpływ ma różny tryb życia domowego w poszczególnych kategoriach pracowniczych; Systematyzacja: konfrontowanie wydobytych elementów wiedzy z innymi, łączenie ich w jednostki nadrzędne i uogólnianie. Gdańsk, 5-7.09.2011 J.L. Kulikowski - INFOBAZY 2011

Metodologia projektowania systemu eksploracji danych Przykład: system CRISP-DM Analiza sytuacyjna Analiza danych Przygotowanie danych Budowa modelu Ocena modelu Upowszechnienie modelu Gdańsk, 5-7.09.2011 J.L. Kulikowski - INFOBAZY 2011

Projektowanie systemu eksploracji danych Problemy 1) Analiza sytuacyjna wymaga oceny aktualnych i przyszłych potrzeb informacyjnych środowiska użytkowników; 2) Analiza danych wymaga krytycznej oceny dostępnych danych pod kątem poprzednio omówionych cech ich jakości; 3) Przygotowanie danych oznacza ich zbieranie , selekcję i dostosowywanie do formalnych wymagań modelu przetwarzania. Gdańsk, 5-7.09.2011 J.L. Kulikowski - INFOBAZY 2011

Modele eksploracji danych Środki używane do budowy modeli: Klasyczna teoria zbiorów i relacji; Klasyczny rachunek zdań; Geometria analityczna; Analiza harmoniczna; Teoria aproksymacji; Statystyka matematyczną; Teoria zbiorów rozmytych i przybliżonych; Logiki nieklasyczne inne. Gdańi, 5-7.09.2011 J.L. Kulikowski - INFOBAZY 2011

Typowe błędy popełniane przy eksploracji danych przenoszenie statystycznych modeli regresji, estymacji lub weryfikacji hipotez opracowanych dla zmiennych losowych o rozkładzie normalnym na zmienne, których rozkład ewidentnie odbiega od normalnego (na przykład, odznacza się silną asymetrią); stosowanie metod klasyfikacji obiektów opartych na miarach odległości (np. euklidesowej, Manhattan, Czebyszewa i in.) do obiektów o cechach mających różne miana fizyczne i mogą być wyrażane w różnie dobieranych jednostkach (co wpływa na relatywny wpływ różnych składowych na wynik klasyfikacji); niewłaściwa interpretacja niektórych modeli (np. krzywej regresji jako przyczynowo-skutkowej zależności pary zmiennych, gdy są one jedynie współzależne od trzeciej zmiennej). Gdańsk, 5-7.09.2011 J.L. Kulikowski - INFOBAZY 2011

J.L. Kulikowski - INFOBAZY 2011 Wnioski końcowe Systemy eksploracji danych i wydobywania wiedzy odgrywają coraz większą rolę w badaniach naukowych i w licznych zastosowaniach; Gdańsk, 5-7.09.2011 J.L. Kulikowski - INFOBAZY 2011

J.L. Kulikowski - INFOBAZY 2011 Wnioski końcowe 1) Systemy eksploracji danych i wydobywania wiedzy odgrywają coraz większą rolę w badaniach naukowych i w licznych zastosowaniach; 2) Pełna przydatność takich systemów w istotny sposób zależy od zapewnienia wysokiej jakości danych wejściowych Gdańsk, 5-7.09.2011 J.L. Kulikowski - INFOBAZY 2011

J.L. Kulikowski - INFOBAZY 2011 Wnioski końcowe 1) Systemy eksploracji danych i wydobywania wiedzy odgrywają coraz większą rolę w badaniach naukowych i w licznych zastosowaniach; 2) Pełna przydatność takich systemów w istotny sposób zależy od zapewnienia wysokiej jakości danych wejściowych 3) Zapewnienie wysokiej jakości danych wejściowych wymaga opracowania i wdrożenia odpowiednich środków technicznych, norm, a także użycia środków organizacyjnych i administracyjnych. Gdańsk, 5-7.09.2011 J.L. Kulikowski - INFOBAZY 2011

J.L. Kulikowski - INFOBAZY 2011 Wnioski końcowe 1) Systemy eksploracji danych i wydobywania wiedzy odgrywają coraz większą rolę w badaniach naukowych i w licznych zastosowaniach; 2) Pełna przydatność takich systemów w istotny sposób zależy od zapewnienia wysokiej jakości danych wejściowych 3) Zapewnienie wysokiej jakości danych wejściowych wymaga opracowania i wdrożenia odpowiednich środków technicznych, norm, a także użycia środków organizacyjnych i administracyjnych. 4) Działalność komitetów CODATA może w istotny sposób przyczynić się do opracowania i wdrożenia takich środków. Gdańsk, 5-7.09.2011 J.L. Kulikowski - INFOBAZY 2011

J.L. Kulikowski - INFOBAZY 2011 Dziękuję za uwagę! Gdańsk, 5-7.09.2011 J.L. Kulikowski - INFOBAZY 2011