Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

Autorzy : Bartosz Rybicki, Paweł Ślusarczyk. Motywacje  Problemy: Różne formy danych tego samego pola (nazwa województwa w formie pełnej, bądź skrótowej)

Podobne prezentacje


Prezentacja na temat: "Autorzy : Bartosz Rybicki, Paweł Ślusarczyk. Motywacje  Problemy: Różne formy danych tego samego pola (nazwa województwa w formie pełnej, bądź skrótowej)"— Zapis prezentacji:

1 Autorzy : Bartosz Rybicki, Paweł Ślusarczyk

2 Motywacje  Problemy: Różne formy danych tego samego pola (nazwa województwa w formie pełnej, bądź skrótowej) Niespójność danych spowodowana błędami przy wprowadzaniu danych Nieodpowiednia kolejność danych Duplikaty

3 Podstawowe metody czyszczenia danych  Parsowanie, konwersja i standaryzacja formatów danych  Poprawianie wartości pól na podstawie słownika synonimów  Czyszczenie oparte na wyuczonych regułach  Deduplikacja

4 Zadania do wykonania  Implementacja szkieletu systemu  Implementacja interfejsu użytkownika  Implementacja modułów: parsującego oraz czyszczącego  Implementacja modułu odpowiedzialnego za uczenie się nowych reguł czyszczenia danych

5 Wymagania  System ma być prototypem potrafiącym nauczyć się prostych przekształceń czyszczenia danych  System ma umożliwiać podanie informacji uczącej  System ma umożliwiać jego przetestowanie na nieznanych frazach

6 Planowane technologie  Java / J2EE  Pakiet WEKA

7 Harmonogram prac PraceTermin Zgłębienie problematyki czyszczenia danych oraz pakietu oprogramowania WEKA 12.03.2008-26.03.2008 Projektowanie systemu27.03.2008-02.04.2008 Implementacja03.04.2008-27.05.2008 Prezentacja końcowa02.06.2008

8 Dziękujemy za uwagę


Pobierz ppt "Autorzy : Bartosz Rybicki, Paweł Ślusarczyk. Motywacje  Problemy: Różne formy danych tego samego pola (nazwa województwa w formie pełnej, bądź skrótowej)"

Podobne prezentacje


Reklamy Google