Autorzy : Bartosz Rybicki, Paweł Ślusarczyk. Motywacje Problemy: Różne formy danych tego samego pola (nazwa województwa w formie pełnej, bądź skrótowej)

Slides:



Advertisements
Podobne prezentacje
Klasyfikacja roczna w roku szkolnym 2012/2013
Advertisements

Modernizacja wejścia do portu wewnętrznego Nr SPOT/1.2.1/20/04 Uroczyste zakończenie realizacji Projektu 30 maja 2008 roku.
Modelowanie zależności ekspresji genów
POWIAT MYŚLENICKI Tytuł Projektu: Poprawa płynności ruchu w centrum Myślenic poprzez przebudowę skrzyżowań dróg powiatowych K 1935 i K 1967na rondo.
Domy Na Wodzie - metoda na wlasne M
ODPŁATNE PRZEJĘCIE PRZEZ GMINĘ KARPACZ OBOWIĄZKÓW W ZAKRESIE ODBIERANIA ODPADÓW KOMUNALNYCH.
ZNACZENIE ZDROWIA PSYCHICZNEGO DLA EFEKTYWNOŚCI PRACOWNIKA
Referat 3. Planowanie zadań i metody ich obrazowania
Uwierzytelnianie i autoryzacja dostępu do portali
XML w zarządzaniu formularzami ubezpieczeniowymi ZUS
NARODOWA STRATEGIA SPÓJNOŚCI dla rozwoju Polski.
NARODOWA STRATEGIA SPÓJNOŚCI dla rozwoju Polski. 02Ministerstwo Rozwoju RegionalnegoWarszawa, Program Operacyjny Innowacyjna Gospodarka, 2007.
Projektowanie Aplikacji Komputerowych
Dane dotyczące sprzedaży wody mineralnej
Politechnika Gdańska WYDZIAŁ ELEKTRONIKI TELEKOMUNIKACJI I INFORMATYKI
WekaSQL Język i aplikacja przetwarzania oraz eksploracji danych.
Prezentacja poziomu rozwoju gmin, które nie korzystały z FS w 2006 roku. Eugeniusz Sobczak Politechnika Warszawska KNS i A Wykorzystanie Funduszy.
Ćwiczenia ZZI Cykl 2 Realizacja projektu indywidualnego.
PROTEIN MODEL PLATFORM WEBMOBIS Krzysztof Gapiński Marcin Różański Paweł Ślusarczyk Magdalena Ziębińska Promotor: dr inż. Piotr Łukasiak.
C.a.R.Metal czyli Cyrkiel i Linijka
Praca Inżynierska „Analiza i projekt aplikacji informatycznej do wspomagania wybranych zadań ośrodków sportowych” Dyplomant: Marcin Iwanicki Promotor:
OFERTA HANDLOWA TVP KIELCE
OFERTA HANDLOWA TVP KIELCE
1/18 LOGO Profil zespołu. 2/18 O nas Produkcja autorskich rozwiązań informatycznych dla małych i średnich firm w zakresie systemów: Baz danych Aplikacji.
Unia Europejska Europejski Fundusz Rozwoju Regionalnego Regionalny Program Operacyjny dla Województwa Pomorskiego na lata Departament Programów.
Unia Europejska Europejski Fundusz Rozwoju Regionalnego Regionalny Program Operacyjny dla Województwa Pomorskiego na lata Departament Programów.
Królowa sportu - Lekkoatletyka
Inżynieria Oprogramowania
Ogólnopolski Konkurs Wiedzy Biblijnej Analiza wyników IV i V edycji Michał M. Stępień
Rola e-edukacji w tworzeniu i rozwoju idei społeczeństwa wiedzy
MKS Tempo Kęty Podsumowanie Sezonu 2013 Kęty
OFERTA HANDLOWA TVP KIELCE
Sekcja Programów Profilaktycznych Dział Lecznictwa Ambulatoryjnego
GMINNE CENTRUM INFORMACJI - Szansa ul. Chrobrego 40/41 62 – 200 Gniezno Tel. (0 61) (0 61) E.
ŚRODOWISKOWY DOM SAMOPOMOCY W SAWINIE
1/34 HISTORIA BUDOWY /34 3/34 6 MAJA 2011.
AKASA Bank Sebastian Marchel Anna Karpińska Anna Matusiewicz
Klasa I a Wychowawca Agnieszka łącka. Klasa I a Wychowawca Agnieszka łącka.
Plan prezentacji Zarys projektu Geneza tematu
Szkoła z Klasą to ogólnopolska akcja edukacyjna prowadzona od 2002 roku przez Centrum Edukacji Obywatelskiej i Gazetę Wyborczą Akcja jest skierowana jest.
ŻYWE JĘZYKI PROGRAMOWANIA LIVING IT UP WITH A LIVE PROGRAMMING LANGUAGE Sean McDirmid Ecole Polytechnique Fédérale de Lausanne (EPFL)
Ze szczególnym uwzględnieniem stosowanych ćwiczeń specjalnych OPRACOWAŁ Z.LIPIŃSKI.
Trend kamieni milowych
Opracowanie powłoki bazy danych MySQL
1. Pomyśl sobie liczbę dwucyfrową (Na przykład: 62)
01 Kościół Św.Walentego w Bieruniu 02 Kościół Św.Walentego w Bieruniu.
Microsoft Office Publisher
PROD_MAG_01 - Załadunek towaru
Wykorzystanie funduszy unijnych w sektorze środowiska Sławomir Mazurek Rzecznik Prasowy Ministerstwa Środowiska Warszawa, 12 września 2007 r.
RAPORT ZA CZTERY KWARTALY 2013 PODSUMOWANIE 4Q MARCA 2014.
Spływ należności w Branży Elektrycznej
Podsumowanie służenia
Wstępna analiza egzaminu gimnazjalnego.
EGZAMINU GIMNAZJALNEGO 2013
EcoCondens Kompakt BBK 7-22 E.
EcoCondens BBS 2,9-28 E.
Badanie losów absolwentów Wydziału Nauk o Żywności ANKIETA SATYSFAKCJI – bezpośrednio po studiach wypełniana VI – X 2013 Warszawa, 2014 Biuro Karier i.
Najlepsi czytelnicy w historii szkoły 1965/66 - Mirosław Twardy VIII g 1966/67 - Katarzyna Gąsior VIII 1967/68 - Marta Ziarko I a 1968/69 - Elżbieta Sarek.
1 Moduł IV. Obszar formułowania zadań budżetowych typu B.
Testogranie TESTOGRANIE Bogdana Berezy.
METODY PODEJMOWANIA DECYZJI
Dr hab. Renata Babińska- Górecka
Szkoła z klasą 2.0. Szkoła z Klasą to ogólnopolska akcja edukacyjna prowadzona od 2002 roku przez Centrum Edukacji Obywatelskiej i„Gazetę Wyborczą”. Od.
Elementy geometryczne i relacje
Strategia pomiaru.
1. Promotor i skład zespołu menedżerskiego 2. Rozwiązywany problem 3. Wymagania 4. Narzędzia / Technologie 5. Harmonogram 6. Nowe problemy 7. Podsumowanie.
Autorzy : Bartosz Rybicki, Paweł Ślusarczyk. Motywacje  Problemy: Różne formy danych tego samego pola (nazwa województwa w formie pełnej, bądź skrótowej)
WYSZUKIWANIE I OPTYMALIZACJA TRAS DLA URZĄDZEŃ MOBILNYCH ANDROID W OPARCIU O SIEĆ/GRAF DOSTĘPNYCH DRÓG Piotr Dąbrowski, Tomasz Pyśk, Piotr Wojciechowski.
1. Promotor i skład zespołu menedżerskiego 2. Rozwiązywany problem 3. Wymagania 4. Wybór zespołu programistów 5. Narzędzia / Technologie 6. Przypadki.
IV Konferencja Naukowo-Techniczna "Nowoczesne technologie w projektowaniu, budowie.
Zapis prezentacji:

Autorzy : Bartosz Rybicki, Paweł Ślusarczyk

Motywacje Problemy: Różne formy danych tego samego pola (nazwa województwa w formie pełnej, bądź skrótowej) Niespójność danych spowodowana błędami przy wprowadzaniu danych Nieodpowiednia kolejność danych Duplikaty

Podstawowe metody czyszczenia danych Parsowanie, konwersja i standaryzacja formatów danych Poprawianie wartości pól na podstawie słownika synonimów Czyszczenie oparte na wyuczonych regułach Deduplikacja

Zadania do wykonania Implementacja szkieletu systemu Implementacja modułów: parsującego oraz czyszczącego Implementacja modułu odpowiedzialnego za uczenie się nowych reguł czyszczenia danych

Wymagania System ma być prototypem potrafiącym nauczyć się prostych przekształceń czyszczenia danych System ma umożliwiać podanie informacji uczącej System ma umożliwiać jego przetestowanie na nieznanych frazach

Planowane technologie Java / J2EE Pakiet WEKA

Harmonogram prac PraceTermin Zgłębienie problematyki czyszczenia danych oraz pakietu oprogramowania WEKA Projektowanie systemu Implementacja Prezentacja końcowa

Wykorzystane rozwiązania Uczenie się oparte na łańcuchach Markova – graf prawdopodobieństwa poszczególnych przejść w formie macierzy incydencji Klasyfikacja tokenów za pomocą słowników imion, tytułów naukowych i ich synonimów Wykrywanie literówek przy pomocy odległości Levenshteina

Sposób wybierania ścieżek w grafie prawodpodobieństwa Koncepcja Problemy [0, 213, 0, 0, 164, 0, 62, 27, 34, 0, 0] [0, 0, 68, 59, 54, 0, 0, 0, 32, 0, 0] [0, 0, 0, 0, 68, 0, 0, 0, 0, 0, 0] [0, 0, 0, 0, 59, 0, 0, 0, 0, 0, 0] [0, 0, 0, 0, 0, 274, 0, 36, 35, 0, 0] [0, 0, 0, 0, 0, 0, 0, 155, 119, 0, 0] [0, 0, 0, 0, 0, 0, 0, 26, 36, 0, 0] [0, 0, 0, 0, 0, 0, 0, 0, 244, 0, 0] [0, 0, 0, 0, 0, 0, 0, 0, 91, 412, 88] [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 412] [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]

Przykład Wejście: różański magister marcin inżsynier magr maja pruszkowska mgr inz rybicki bartosz jacek kaktus prof inz hab doktor Wyjście: [mgr, inż., Marcin, Różański] [mgr, Maja, Pruszkowska] [mgr, inż., Bartosz, Rybicki] [prof., dr, hab., inż., Jacek, Kaktus]

Wizje rozwoju Zmniejszenie czułości na format zanieczyszczonych danych Zaprojektowanie metod dostępu (api) do systemu czyszcznia Rozwój mechanizmu uczenia się

Dziękujemy za uwagę