Pobierz prezentację
Pobieranie prezentacji. Proszę czekać
OpublikowałStefan Podgórski Został zmieniony 9 lat temu
1
Autorzy : Bartosz Rybicki, Paweł Ślusarczyk
2
Motywacje Problemy: Różne formy danych tego samego pola (nazwa województwa w formie pełnej, bądź skrótowej) Niespójność danych spowodowana błędami przy wprowadzaniu danych Nieodpowiednia kolejność danych Duplikaty
3
Podstawowe metody czyszczenia danych Parsowanie, konwersja i standaryzacja formatów danych Poprawianie wartości pól na podstawie słownika synonimów Czyszczenie oparte na wyuczonych regułach Deduplikacja
4
Zadania do wykonania Implementacja szkieletu systemu Implementacja interfejsu użytkownika Implementacja modułów: parsującego oraz czyszczącego Implementacja modułu odpowiedzialnego za uczenie się nowych reguł czyszczenia danych
5
Wymagania System ma być prototypem potrafiącym nauczyć się prostych przekształceń czyszczenia danych System ma umożliwiać podanie informacji uczącej System ma umożliwiać jego przetestowanie na nieznanych frazach
6
Planowane technologie Java / J2EE Pakiet WEKA
7
Harmonogram prac PraceTermin Zgłębienie problematyki czyszczenia danych oraz pakietu oprogramowania WEKA 12.03.2008-26.03.2008 Projektowanie systemu27.03.2008-02.04.2008 Implementacja03.04.2008-27.05.2008 Prezentacja końcowa02.06.2008
8
Dziękujemy za uwagę
Podobne prezentacje
© 2024 SlidePlayer.pl Inc.
All rights reserved.