Autorzy : Bartosz Rybicki, Paweł Ślusarczyk
Motywacje Problemy: Różne formy danych tego samego pola (nazwa województwa w formie pełnej, bądź skrótowej) Niespójność danych spowodowana błędami przy wprowadzaniu danych Nieodpowiednia kolejność danych Duplikaty
Podstawowe metody czyszczenia danych Parsowanie, konwersja i standaryzacja formatów danych Poprawianie wartości pól na podstawie słownika synonimów Czyszczenie oparte na wyuczonych regułach Deduplikacja
Zadania do wykonania Implementacja szkieletu systemu Implementacja modułów: parsującego oraz czyszczącego Implementacja modułu odpowiedzialnego za uczenie się nowych reguł czyszczenia danych
Wymagania System ma być prototypem potrafiącym nauczyć się prostych przekształceń czyszczenia danych System ma umożliwiać podanie informacji uczącej System ma umożliwiać jego przetestowanie na nieznanych frazach
Planowane technologie Java / J2EE Pakiet WEKA
Harmonogram prac PraceTermin Zgłębienie problematyki czyszczenia danych oraz pakietu oprogramowania WEKA Projektowanie systemu Implementacja Prezentacja końcowa
Wykorzystane rozwiązania Uczenie się oparte na łańcuchach Markova – graf prawdopodobieństwa poszczególnych przejść w formie macierzy incydencji Klasyfikacja tokenów za pomocą słowników imion, tytułów naukowych i ich synonimów Wykrywanie literówek przy pomocy odległości Levenshteina
Sposób wybierania ścieżek w grafie prawodpodobieństwa Koncepcja Problemy [0, 213, 0, 0, 164, 0, 62, 27, 34, 0, 0] [0, 0, 68, 59, 54, 0, 0, 0, 32, 0, 0] [0, 0, 0, 0, 68, 0, 0, 0, 0, 0, 0] [0, 0, 0, 0, 59, 0, 0, 0, 0, 0, 0] [0, 0, 0, 0, 0, 274, 0, 36, 35, 0, 0] [0, 0, 0, 0, 0, 0, 0, 155, 119, 0, 0] [0, 0, 0, 0, 0, 0, 0, 26, 36, 0, 0] [0, 0, 0, 0, 0, 0, 0, 0, 244, 0, 0] [0, 0, 0, 0, 0, 0, 0, 0, 91, 412, 88] [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 412] [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
Przykład Wejście: różański magister marcin inżsynier magr maja pruszkowska mgr inz rybicki bartosz jacek kaktus prof inz hab doktor Wyjście: [mgr, inż., Marcin, Różański] [mgr, Maja, Pruszkowska] [mgr, inż., Bartosz, Rybicki] [prof., dr, hab., inż., Jacek, Kaktus]
Wizje rozwoju Zmniejszenie czułości na format zanieczyszczonych danych Zaprojektowanie metod dostępu (api) do systemu czyszcznia Rozwój mechanizmu uczenia się
Dziękujemy za uwagę