Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

Autorzy : Bartosz Rybicki, Paweł Ślusarczyk. Motywacje Problemy: Różne formy danych tego samego pola (nazwa województwa w formie pełnej, bądź skrótowej)

Podobne prezentacje


Prezentacja na temat: "Autorzy : Bartosz Rybicki, Paweł Ślusarczyk. Motywacje Problemy: Różne formy danych tego samego pola (nazwa województwa w formie pełnej, bądź skrótowej)"— Zapis prezentacji:

1 Autorzy : Bartosz Rybicki, Paweł Ślusarczyk

2 Motywacje Problemy: Różne formy danych tego samego pola (nazwa województwa w formie pełnej, bądź skrótowej) Niespójność danych spowodowana błędami przy wprowadzaniu danych Nieodpowiednia kolejność danych Duplikaty

3 Podstawowe metody czyszczenia danych Parsowanie, konwersja i standaryzacja formatów danych Poprawianie wartości pól na podstawie słownika synonimów Czyszczenie oparte na wyuczonych regułach Deduplikacja

4 Zadania do wykonania Implementacja szkieletu systemu Implementacja modułów: parsującego oraz czyszczącego Implementacja modułu odpowiedzialnego za uczenie się nowych reguł czyszczenia danych

5 Wymagania System ma być prototypem potrafiącym nauczyć się prostych przekształceń czyszczenia danych System ma umożliwiać podanie informacji uczącej System ma umożliwiać jego przetestowanie na nieznanych frazach

6 Planowane technologie Java / J2EE Pakiet WEKA

7 Harmonogram prac PraceTermin Zgłębienie problematyki czyszczenia danych oraz pakietu oprogramowania WEKA Projektowanie systemu Implementacja Prezentacja końcowa

8 Wykorzystane rozwiązania Uczenie się oparte na łańcuchach Markova – graf prawdopodobieństwa poszczególnych przejść w formie macierzy incydencji Klasyfikacja tokenów za pomocą słowników imion, tytułów naukowych i ich synonimów Wykrywanie literówek przy pomocy odległości Levenshteina

9 Sposób wybierania ścieżek w grafie prawodpodobieństwa Koncepcja Problemy [0, 213, 0, 0, 164, 0, 62, 27, 34, 0, 0] [0, 0, 68, 59, 54, 0, 0, 0, 32, 0, 0] [0, 0, 0, 0, 68, 0, 0, 0, 0, 0, 0] [0, 0, 0, 0, 59, 0, 0, 0, 0, 0, 0] [0, 0, 0, 0, 0, 274, 0, 36, 35, 0, 0] [0, 0, 0, 0, 0, 0, 0, 155, 119, 0, 0] [0, 0, 0, 0, 0, 0, 0, 26, 36, 0, 0] [0, 0, 0, 0, 0, 0, 0, 0, 244, 0, 0] [0, 0, 0, 0, 0, 0, 0, 0, 91, 412, 88] [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 412] [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]

10 Przykład Wejście: różański magister marcin inżsynier magr maja pruszkowska mgr inz rybicki bartosz jacek kaktus prof inz hab doktor Wyjście: [mgr, inż., Marcin, Różański] [mgr, Maja, Pruszkowska] [mgr, inż., Bartosz, Rybicki] [prof., dr, hab., inż., Jacek, Kaktus]

11 Wizje rozwoju Zmniejszenie czułości na format zanieczyszczonych danych Zaprojektowanie metod dostępu (api) do systemu czyszcznia Rozwój mechanizmu uczenia się

12 Dziękujemy za uwagę


Pobierz ppt "Autorzy : Bartosz Rybicki, Paweł Ślusarczyk. Motywacje Problemy: Różne formy danych tego samego pola (nazwa województwa w formie pełnej, bądź skrótowej)"

Podobne prezentacje


Reklamy Google