Pobierz prezentację
Pobieranie prezentacji. Proszę czekać
OpublikowałWielisław Gołąb Został zmieniony 11 lat temu
1
Autorzy : Bartosz Rybicki, Paweł Ślusarczyk
2
Motywacje Problemy: Różne formy danych tego samego pola (nazwa województwa w formie pełnej, bądź skrótowej) Niespójność danych spowodowana błędami przy wprowadzaniu danych Nieodpowiednia kolejność danych Duplikaty
3
Podstawowe metody czyszczenia danych Parsowanie, konwersja i standaryzacja formatów danych Poprawianie wartości pól na podstawie słownika synonimów Czyszczenie oparte na wyuczonych regułach Deduplikacja
4
Zadania do wykonania Implementacja szkieletu systemu Implementacja modułów: parsującego oraz czyszczącego Implementacja modułu odpowiedzialnego za uczenie się nowych reguł czyszczenia danych
5
Wymagania System ma być prototypem potrafiącym nauczyć się prostych przekształceń czyszczenia danych System ma umożliwiać podanie informacji uczącej System ma umożliwiać jego przetestowanie na nieznanych frazach
6
Planowane technologie Java / J2EE Pakiet WEKA
7
Harmonogram prac PraceTermin Zgłębienie problematyki czyszczenia danych oraz pakietu oprogramowania WEKA 12.03.2008-26.03.2008 Projektowanie systemu27.03.2008-02.04.2008 Implementacja03.04.2008-27.05.2008 Prezentacja końcowa02.06.2008
8
Wykorzystane rozwiązania Uczenie się oparte na łańcuchach Markova – graf prawdopodobieństwa poszczególnych przejść w formie macierzy incydencji Klasyfikacja tokenów za pomocą słowników imion, tytułów naukowych i ich synonimów Wykrywanie literówek przy pomocy odległości Levenshteina
9
Sposób wybierania ścieżek w grafie prawodpodobieństwa Koncepcja Problemy [0, 213, 0, 0, 164, 0, 62, 27, 34, 0, 0] [0, 0, 68, 59, 54, 0, 0, 0, 32, 0, 0] [0, 0, 0, 0, 68, 0, 0, 0, 0, 0, 0] [0, 0, 0, 0, 59, 0, 0, 0, 0, 0, 0] [0, 0, 0, 0, 0, 274, 0, 36, 35, 0, 0] [0, 0, 0, 0, 0, 0, 0, 155, 119, 0, 0] [0, 0, 0, 0, 0, 0, 0, 26, 36, 0, 0] [0, 0, 0, 0, 0, 0, 0, 0, 244, 0, 0] [0, 0, 0, 0, 0, 0, 0, 0, 91, 412, 88] [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 412] [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
10
Przykład Wejście: różański magister marcin inżsynier magr maja pruszkowska mgr inz rybicki bartosz jacek kaktus prof inz hab doktor Wyjście: [mgr, inż., Marcin, Różański] [mgr, Maja, Pruszkowska] [mgr, inż., Bartosz, Rybicki] [prof., dr, hab., inż., Jacek, Kaktus]
11
Wizje rozwoju Zmniejszenie czułości na format zanieczyszczonych danych Zaprojektowanie metod dostępu (api) do systemu czyszcznia Rozwój mechanizmu uczenia się
12
Dziękujemy za uwagę
Podobne prezentacje
© 2024 SlidePlayer.pl Inc.
All rights reserved.