Autorzy : Bartosz Rybicki, Paweł Ślusarczyk
Motywacje Problemy: Różne formy danych tego samego pola (nazwa województwa w formie pełnej, bądź skrótowej) Niespójność danych spowodowana błędami przy wprowadzaniu danych Nieodpowiednia kolejność danych Duplikaty
Podstawowe metody czyszczenia danych Parsowanie, konwersja i standaryzacja formatów danych Poprawianie wartości pól na podstawie słownika synonimów Czyszczenie oparte na wyuczonych regułach Deduplikacja
Zadania do wykonania Implementacja szkieletu systemu Implementacja interfejsu użytkownika Implementacja modułów: parsującego oraz czyszczącego Implementacja modułu odpowiedzialnego za uczenie się nowych reguł czyszczenia danych
Wymagania System ma być prototypem potrafiącym nauczyć się prostych przekształceń czyszczenia danych System ma umożliwiać podanie informacji uczącej System ma umożliwiać jego przetestowanie na nieznanych frazach
Planowane technologie Java / J2EE Pakiet WEKA
Harmonogram prac PraceTermin Zgłębienie problematyki czyszczenia danych oraz pakietu oprogramowania WEKA Projektowanie systemu Implementacja Prezentacja końcowa
Dziękujemy za uwagę