Techniki digitalizacji, organizowania oraz efektywnego wyszukiwania informacji z dokumentów tekstowych Remigiusz Baran, Andrzej Dziech, Paweł Fornalski,

Slides:



Advertisements
Podobne prezentacje
DVB-S Tomasz Bartkowiak Maciej Januszewski Paweł Kryszkiewicz
Advertisements

Zastosowanie LDAP w obsłudze katalogów bibliotecznych
Biblioteka szkolna „W bibliotece znajdziesz wszystko, czego chcesz, starą prawdę, mądrą bajkę, piękny wiersz” (Krystyna Wodnicka)  
Prezentacja na temat Dos`a. Wykonał: Tomasz Kucharczyk
Rola komputera w przetwarzaniu informacji.
Multimedia, prezentacje, wideo, dokumenty elektroniczne
Budowa i funkcje elektronicznego katalogu biblioteki szkolnej
Zastosowania geodezyjne
Systemy operacyjne.
Wykład 2 struktura programu elementy języka typy zmienne
Artur Szmigiel Paweł Zarębski Kl. III i
Edytor tekstu.
Efektywna transmisja plików za pomocą TCP Piotr Kasprzyk Instytut Informatyki Politechniki Śląskiej.
Multimedialne bazy danych
Autor: Maciej Piwowarczyk
Made by Mateusz Szirch Kilka słów o JavaScript.
Temat: Porządkowanie i ochrona dokumentów komputerowych.
Strategia skutecznego szukania informacji w Internecie
Gra Scrabble ® na urządzenie Nokia N800 Autor: Michał Filipowicz Promotor: dr inż. Jerzy Zaczek Konsultant: mgr inż. Krzysztof Rzecki.
REGIONALNY SYSTEM GOSPODARKI ODPADAMI KOMUNALNYMI W POLSCE Sprawdzone rozwiązania w gospodarce odpadami komunalnymi Odzysk frakcji materiałowych z odpadów.
„Ukryte” zasoby Internetu
Biblioteka Miejskiego Zespołu Szkół nr 4 im
Instytut Tele- i Radiotechniczny WARSZAWA
Uniwersytet Mikołaja Kopernika Wydział Fizyki, Astronomii i Informatyki Stosowanej Podyplomowe Studium programowania i Zastosowań Komputerów Repetytorium.
Digitalizacja obiektów muzealnych
Systemy operacyjne.
Użytkowanie komputerów
Piotr Karpiński 0,5 min. “Dzień dobry, nazywam się Piotr Karpiński
Uniwersytet Mikołaja Kopernika Wydział Fizyki, Astronomii i Informatyki Stosowanej Podyplomowe Studium Programowania i Zastosowań Komputerów Marcin Hankiewicz.
KOMUNIKACJA MULTIMEDIALNA ĆWICZENIA
Autor: Justyna Radomska
Rozporządzenie MEN z 7 lutego 2012 roku Pojawia się tam zapis język obcy ukierunkowany zawodowo- Efekty kształcenia wspólne dla wszystkich zawodów Efekty.
XML – eXtensible Markup Language
Implementacja systemu
Zaprojektowanie i wykonanie prototypowego systemu obiegu dokumentów (workflow) dla Dziekanatu Wydziału z wykorzystaniem narzędzi open-source i cloud computing.
POŚREDNIK Jak reprezentowana jest informacja w komputerze? liczby – komputer został wymyślony jako zaawansowane urządzenie służące do wykonywania.
Autor: Joanna Barańska Promotor: dr inż. Paweł Figat Konsultant:
Mirosław Górny Maria Śliwińska
Książka elektroniczna w WBP w Opolu. Formy udostępnień i statystyki
Technologie informacyjne II
Treści multimedialne - kodowanie, przetwarzanie, prezentacja Odtwarzanie treści multimedialnych Andrzej Majkowski 1 informatyka +
Biblioteka Wyższej Szkoły Bankowej w Gdyni.  możliwość zamawiania, rezerwowania oraz przedłużania terminu zwrotu książek,  dostęp ze strony
HTML (ang. HyperText Markup Language ) – język do tworzenia stron internetowych opierający się na znacznikach, czy inaczej je nazywając – tagach. Język.
Informatyka – szkoła gimnazjalna – Scholaris - © DC Edukacja Wprowadzenie do kaskadowych arkuszy stylów Informatyka.
Informatyka – szkoła podstawowa – Scholaris - © DC Edukacja OnetSkype, czyli komunikator Internetowy Informatyka.
Beata Sanakiewicz. Spis treści  Łączenie dokumentów Łączenie dokumentów  Mechanizm OLE Mechanizm OLE  Obiekt osadzony Obiekt osadzony  Obiekt połączony.
Iga Lewandowska I EMII MU
Lekcje z komputerem, 2006.
Wykorzystanie modułu skanów Systemu C2
I TY ZOSTAŃ WEBMASTEREM! CZĘŚĆ 2 – „STRUKTURA STRONY” STWORZYŁ GABRIEL ŚLAWSKI.
BUDOWA WEWNĘTRZNA KOMPUTERA
Użycie języka w procesie porozumiewania się. GEST to dowolny ruch wykonywany przez kogoś świadomie lub nie. MIMIKA to ruchy mięśni twarzy wyrażające.
Temat: Jak działa antywirus? _________________________________________________________________________________________________________________ [ Przedmiot:
Pełnosprawny Student IX Kraków, 3 listopada 2015 r. Akademicka Biblioteka Cyfrowa Międzyuczelniana biblioteka materiałów dostępnych w wersjach elektronicznych.
Foldery i Pliki Marcin Wojnowski.
Biblioteka szkolna „W bibliotece znajdziesz wszystko, czego chcesz, starą prawdę, mądrą bajkę, piękny wiersz” (Krystyna Wodnicka)  
Dokumentacja programu komputerowego i etapy tworzenia programów.
Środowisko wspomagania automatycznej instalacji GNU/Linux „Multistart” prezentacja pracy dyplomowej Marta i Paweł Szcześniak.
Przewodnik Wyszukiwanie eKsiążek EBSCO.
IX Konferencja "Uniwersytet Wirtualny: model, narzędzia, praktyka" PIOTR TKACZ Studium e-Learningu Wyższej Szkoły Zarządzania Ochroną Pracy w Katowicach.
InMoST Wielkopolska sieć współpracy w zakresie innowacyjnych metod wytwarzania oprogramowania Termin realizacji: – Innowacyjne metody.
TECHNOLOGIE MULTIMEDIALNE
Egzamin gimnazjalny z języka angielskiego - poziom podstawowy.
Systemy operacyjne. Pliki i foldery.
Jak uzyskać certyfikat po szkoleniu?
Wstęp do Informatyki - Wykład 6
Egzamin gimnazjalny z języka angielskiego - poziom podstawowy.
Wyniki próbnego egzaminu gimnazjalnego – język obcy nowożytny.
Instrukcja wykorzystania oprogramowania „Forms” wchodzącego w skład pakietu usług chmury cyfrowej Office 365.
Zapis prezentacji:

Techniki digitalizacji, organizowania oraz efektywnego wyszukiwania informacji z dokumentów tekstowych Remigiusz Baran, Andrzej Dziech, Paweł Fornalski, Tomasz Ruść, Przemysław Ślusarczyk Nasza grupa zajmuje się wyszukiwaniem w repozytoriach tekstowych w języku polskim. Dlatego w swoim przemówieniu chciałbym przedstawic efektywnosc wyszukiwania pelnotekstowego w polaczeniu z wykorzystaniem słowników fleksyjnych, oraz okresleniu informacji tekstowej jaka może być ukryta w obrazie w postaci niewidocznego cyfrowego znaku wodnego. Przed omówieniem tych dwóch zagadnienień przedstawię ogólne założenia dla stworzonego przez nas systemu przetwarzającego dokumenty tekstowe. 2017-03-26

Plan prezentacji - Motywacja - Architektura systemu - Efektywność wyszukiwania pełno-tekstowego - Wykorzystanie cyfrowych znaków wodnych - Podsumowanie Na początku prezentacji przedstawie cel naszych badań. Następnie omówie ogólną koncepcję naszego systemu który pozwala na efektywną cyfryzację, gromadzenie i katalogowanie dokumentów tekstowych. Dzięki temu opisowi możliwe będzie zaprezentowanie efektywności wyszukiwania wspieranego m.in. poprzez elektroniczny słownik fleksyjny oraz indekser oparty na bibliotece Lucene. Dodatkowo w systemie zaimplementowano możliwość wprowadzania notatek adnotacji jawnych niejawnych. Notatki niejawne są ukrywane za pomocą technologii znaków wodnych. Dlatego dokonalismy testow pojemnosci znaku wodnego. Moja prezentację zkończy podsumowanie i wnioski końcowe. 2017-03-26 2

Motywacja Stworzenie elastycznego systemu, umożliwiającego przyjazne zarządzanie bibliotekami cyfrowymi z wykorzystaniem najnowszych technik i innowacyjnych rozwiązań w postaci: wyszukiwanie pełno-tekstowe z wykorzystaniem słowników fleksyjnych elektroniczne notatki (indywidualne uwagi i komentarze) niejawne uzupełniające informacje techniczne z wykorzystaniem technik znakowania wodnego Naszym głównym celem było stworzenie systemu który umożliwiałby uniwersalne zarządzanie bibliotekami cyfrowymi. W tym celu wykorzystano cały szereg innowacyjnych rozwiązań takich jak: Wyszukiwanie zbiorów odbywa się dzięki połączeniu indeksera Lucene ze słownikiem fleksyjnym. Archiwizowane dane mogą być dodatkowo oznaczane notatkami jawnymi i niejawnymi. Przy znakowaniu niejawnym została wykorzystana technika znakowania wodnego, którego algorytm omówię w dalszej części prezentacji. 2017-03-26 3

Architektura systemu 2017-03-26 Stworzony przez nas system zapewnia spójność pomiędzy wersją papierową i cyfrową dokumentów. Zostało to osiągnięte przez wydzielenie punktu wprowadzania dokumentów do systemu pod nadzorem technika, który odpowiada za spójność dokumentów w różnych formatach. Pracownik techniczny skanuje dokumenty, a następnie uruchomia dla nich OCR. Taka postać dokumentu po wprowadzeniu do repozytorium nie ulega dalszej edycji. W naszym systemie centralną rolę odgrywa repozytorium zlokalizowane na serwerze. Użytkownicy mają dostęp do repozytorium dzięki protokołowi https w dwojaki sposób: przez przeglądarkę internetową albo dzięki aplikacji zainstalowanej na komputerze przenośnym. W tym drugim przypadku użytkownik mający odpowiednie uprawnienia do danych może zaimportować zbiór dokumentów dotyczących konkretnego zagadnienia/sprawy. Tworząc w ten sposób na swoim komputerze prywatne repozytorium mobilne. Serwer zarządza dokumentami poprzez ich przechowywanie jak również oferuje wparcie dla pracy grupowej w postaci np. kategoryzowania czy wykrywania konfliktów edycyjnych (w zakresie tworzonych notatek, które są nanoszone na zeskanowany dokument w postaci dodatkowej warstwy). Drugim zadaniem jakie powinien obsługiwać serwer jest wsparcie dla lokalizowania dokumentów w serwerze. W większości obecnych systemów odbywa się to poprzez formułowanie zapytań, głównie SQL, do serwera, głównie bazodanowego, który odpytuje szereg atrybutów związanych z dokumentem. Podstawową wadą takiego systemu jest konieczność zbudowania “bazy wiedzy” dokumentu, czyli utworzenia zbioru atrybutów dokumentu po których można przeszukiwać. Obecnie coraz powszechniejsze bywa stosowanie wyszukiwania pełno-tekstowego. System oparty o taki mechanizm nie wymaga dużego nakładu pracy poświęconemu budowania bazy atrybutów dokumentów. Jednak samo użycie wyszukiwania pełno-tekstowego nie wspiera użytkownika znacząco, ponieważ nadal musi znać dokładną postać wyszukiwanej frazy (wyrazu). Wyszukiwanie pełno-tekstowe pozwala przeszukiwać bardziej ogólne zbiory, ale nie zawiera systemu podpowiedzi lub chociaż korekty zapytań użytkownika np. w przypadku błędów ortograficznych. Taki poziom funkcjonalności można osiągnąć wykorzystując przy formułowaniu zapytań do silników pełno-tekstowych dodatkowych słowników i tworząc logikę potrafiącą z nich korzystać. W ten sposób można wzbogacić system w moduły sprawdzania ortografii w szukanej frazie jak również uzupełnić zapytanie do silnika pełno-tekstowego o synonimy danego wyrazu. Taki układ tworzy swego rodzaju inteligencję podpowiadającą użytkownikowi inne alternatywne formy zapytań prowadzące do uzyskania wyniku. 2017-03-26

Efektywność wyszukiwania pełno-tekstowego Dane testowe: plik tekstowy z Wikipedii 29 259 960 wyrazów, 29 919 plików, (średnio po 978 wyrazów każdy). Sprzęt: komputer z procesorem AMD Phenon II X4 945. kod testowy nie był optymalizowany do pracy wielowątkowej system operacyjny nie był specjalnie przygotowany na potrzeby testu. Procedura testowa: wyborze 10 wyrazów z których budowano później zapytania. Wybrany wyraz nie mógł być krótszy niż 7 liter i w zbiorze testowym musiał występować więcej niż w 100 plikach (z uwzględnieniem fleksyjnych form słownikowych). w teście mierzony był czas wykonania zapytania oraz ilość znalezionych plików odniesiona do ich spodziewanej liczby. Celem prezentowanych analiz nie było określenie wydajności algorytmów w danym środowisku testowym, a wykazanie różnic pomiędzy wyszukiwaniem pełno-tekstowym z wykorzystaniem słownika fleksyjnego i wyszukiwaniem „fuzzy”. Biblioteka Apache Lucene (2.4.0) oferuje nie tylko wyszukiwanie „fuzzy”, bazujące na odległościach Levenshteina, ale również udostępnia rozbudowany język zapytań, uwzględniając operatory logiczne oraz "~". 2017-03-26

Efektywność wyszukiwania pełno-tekstowego Wyniki przykładowych testów: Procedura testowa oparta została o operator OR. Czyli za trafienie przyjmowane było znalezienie pliku, który zawierał przynajmniej jeden wyraz zawarty w zapytaniu. Ten operator był domyślnym, dlatego zapytanie w formie: substrat siłownia jest identyczne z: substrat OR siłownia. Do silnika wyszukującego Lucene skierowane było 10 zapytań, każde w 4 wariantach: w pierwszym poszukiwane słowo było uzupełniane o formy fleksyjne z słownika np.: wyraz substrat był przekształcany na (substrat OR substracie OR substratach OR substratami OR substratem OR substratom OR substratowi OR substratów OR substratu OR substraty), pozostałe trzy warianty wykorzystywały jedno z przybliżeń: 0.5, 0.7, 0.9, czyli słowo substrat zamieniany był na substrat~0.5 (takie przybliżenie pozwala na znalezienie wyrazu, będącego przybliżeniem szukanego w wymiarze 50% odległości Levenshteina). 2017-03-26

Efektywność wyszukiwania pełno-tekstowego Z zamieszczonych wykresów wynika, że czas wykonania zapytania opartego o słownik jest porównywalny do zapytania z przybliżeniem ~0.9. Porównując te dwa zapytania można zauważyć, że ilość znalezionych plików z szukanymi wyrazami w przypadku zapytania z przybliżeniem ~0.9 jest większa od spodziewanej. Użycie słownika natomiast zwraca wynik zbliżony dla wcześniejszego przybliżenia. Gorszy wynik dla większej ilości wyrazów dało użycie przybliżenia ~0.7, dodatkowo zajmowało zdecydowanie więcej czasu. Dla zapytania składającego się z 6 wyrazów i przybliżenia ~0.5 system zwracał zbyt dużo wyników, co było okupione znacznym czasem wykonania. 2017-03-26

maksymalny rozmiar ukrywanej informacji Notatki – cyfrowe znaki wodne LW x LK maksymalny rozmiar ukrywanej informacji w bitach w bajtach w arkuszach A4 688 x 912 9804 1225 ok. ¼ arkusza 1368 x 1824 38988 4873 pełny 1 arkusz 2056 x 2736 87894 10986 więcej niż 2 Znak wodny w prezentowanym systemie wpisywany jest do oryginalnych dokumentów (obrazów zapisywanych w standardzie jpg) za pośrednictwem dodatkowego sygnału, nazywanego nośną, którym jest pseudolosowy szum N. Powstająca w ten sposób nośna N’, jest następnie kodowana przy wykorzystaniu oddzielnego sygnału K, pełniącego w systemie rolę klucza symetrycznego. Tak zakodowana nośna, jest wbudowywana następnie w oryginalny dokument O, tworząc nierozróżnialny dla obserwatora dokument O’. Sygnał K tworzony jest natomiast wg ustalonego szablonu na podstawie znacznie mniejszego, bo o wymiarze 16 x 16 pikseli, wzorcowego obrazu k, którym musi dysponować zarówno nadawca jak i odbiorca tak ukrywanej informacji w celu jej poprawnego odczytania. O wyborze takiej techniki zdecydowały, oprócz ww. aspektów dotyczących ukrywania informacji w zeskanowanych dokumentach tekstowych, bardzo dobre własności jakie wykazuje sygnał o charakterystyce nośnej N z punktu widzenia technik znakowania wodnego, zwłaszcza w odniesieniu do pojemności znaku. 2017-03-26

Podsumowanie przy wyszukiwaniu pełno-tekstowym dla języka polskiego warto korzystać z słowników odmiany fleksyjnej. - czas wykonywania zapytania zawierającego wiele form fleksyjnych wcale nie jest znacząco dłuższy, a w niektórych przypadkach nawet krótszy od zapytań z przybliżeniem - znaki wodne pozwalają na łączenie dokumentów tekstowych, obrazów, sekwencji wideo oraz audio z dodatkowym, uzupełniającym je opisem w ramach jednej, tej samej, wspólnej reprezentacji cyfrowej. Narzut związany z budową zapytania opartego o słownik zwraca się w postaci dokładnych wyników. Dlatego środowisko Lucene stanowi doskonałe uzupełnienie możliwości baz danych o wydajny silnik wyszukiwania pełno-tekstowego. Wykorzystane technologie pozwoliły na stworzenie elastycznego systemu, który może być wykorzystywany w różnych dziedzinach: np. systemach rejestracji medycznej, systemach typu workflow. Obecnie trwaja testy naszego systemu w jednym z polskich sądów. 2017-03-26

Dziękuję za uwagę ! 2017-03-26