Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

Techniki digitalizacji, organizowania oraz efektywnego wyszukiwania informacji z dokumentów tekstowych Remigiusz Baran, Andrzej Dziech, Paweł Fornalski,

Podobne prezentacje


Prezentacja na temat: "Techniki digitalizacji, organizowania oraz efektywnego wyszukiwania informacji z dokumentów tekstowych Remigiusz Baran, Andrzej Dziech, Paweł Fornalski,"— Zapis prezentacji:

1 Techniki digitalizacji, organizowania oraz efektywnego wyszukiwania informacji z dokumentów tekstowych Remigiusz Baran, Andrzej Dziech, Paweł Fornalski, Tomasz Ruść, Przemysław Ślusarczyk Nasza grupa zajmuje się wyszukiwaniem w repozytoriach tekstowych w języku polskim. Dlatego w swoim przemówieniu chciałbym przedstawic efektywnosc wyszukiwania pelnotekstowego w polaczeniu z wykorzystaniem słowników fleksyjnych, oraz okresleniu informacji tekstowej jaka może być ukryta w obrazie w postaci niewidocznego cyfrowego znaku wodnego. Przed omówieniem tych dwóch zagadnienień przedstawię ogólne założenia dla stworzonego przez nas systemu przetwarzającego dokumenty tekstowe.

2 Plan prezentacji - Motywacja - Architektura systemu
- Efektywność wyszukiwania pełno-tekstowego - Wykorzystanie cyfrowych znaków wodnych - Podsumowanie Na początku prezentacji przedstawie cel naszych badań. Następnie omówie ogólną koncepcję naszego systemu który pozwala na efektywną cyfryzację, gromadzenie i katalogowanie dokumentów tekstowych. Dzięki temu opisowi możliwe będzie zaprezentowanie efektywności wyszukiwania wspieranego m.in. poprzez elektroniczny słownik fleksyjny oraz indekser oparty na bibliotece Lucene. Dodatkowo w systemie zaimplementowano możliwość wprowadzania notatek adnotacji jawnych niejawnych. Notatki niejawne są ukrywane za pomocą technologii znaków wodnych. Dlatego dokonalismy testow pojemnosci znaku wodnego. Moja prezentację zkończy podsumowanie i wnioski końcowe. 2

3 Motywacja Stworzenie elastycznego systemu, umożliwiającego przyjazne
zarządzanie bibliotekami cyfrowymi z wykorzystaniem najnowszych technik i innowacyjnych rozwiązań w postaci: wyszukiwanie pełno-tekstowe z wykorzystaniem słowników fleksyjnych elektroniczne notatki (indywidualne uwagi i komentarze) niejawne uzupełniające informacje techniczne z wykorzystaniem technik znakowania wodnego Naszym głównym celem było stworzenie systemu który umożliwiałby uniwersalne zarządzanie bibliotekami cyfrowymi. W tym celu wykorzystano cały szereg innowacyjnych rozwiązań takich jak: Wyszukiwanie zbiorów odbywa się dzięki połączeniu indeksera Lucene ze słownikiem fleksyjnym. Archiwizowane dane mogą być dodatkowo oznaczane notatkami jawnymi i niejawnymi. Przy znakowaniu niejawnym została wykorzystana technika znakowania wodnego, którego algorytm omówię w dalszej części prezentacji. 3

4 Architektura systemu 2017-03-26
Stworzony przez nas system zapewnia spójność pomiędzy wersją papierową i cyfrową dokumentów. Zostało to osiągnięte przez wydzielenie punktu wprowadzania dokumentów do systemu pod nadzorem technika, który odpowiada za spójność dokumentów w różnych formatach. Pracownik techniczny skanuje dokumenty, a następnie uruchomia dla nich OCR. Taka postać dokumentu po wprowadzeniu do repozytorium nie ulega dalszej edycji. W naszym systemie centralną rolę odgrywa repozytorium zlokalizowane na serwerze. Użytkownicy mają dostęp do repozytorium dzięki protokołowi https w dwojaki sposób: przez przeglądarkę internetową albo dzięki aplikacji zainstalowanej na komputerze przenośnym. W tym drugim przypadku użytkownik mający odpowiednie uprawnienia do danych może zaimportować zbiór dokumentów dotyczących konkretnego zagadnienia/sprawy. Tworząc w ten sposób na swoim komputerze prywatne repozytorium mobilne. Serwer zarządza dokumentami poprzez ich przechowywanie jak również oferuje wparcie dla pracy grupowej w postaci np. kategoryzowania czy wykrywania konfliktów edycyjnych (w zakresie tworzonych notatek, które są nanoszone na zeskanowany dokument w postaci dodatkowej warstwy). Drugim zadaniem jakie powinien obsługiwać serwer jest wsparcie dla lokalizowania dokumentów w serwerze. W większości obecnych systemów odbywa się to poprzez formułowanie zapytań, głównie SQL, do serwera, głównie bazodanowego, który odpytuje szereg atrybutów związanych z dokumentem. Podstawową wadą takiego systemu jest konieczność zbudowania “bazy wiedzy” dokumentu, czyli utworzenia zbioru atrybutów dokumentu po których można przeszukiwać. Obecnie coraz powszechniejsze bywa stosowanie wyszukiwania pełno-tekstowego. System oparty o taki mechanizm nie wymaga dużego nakładu pracy poświęconemu budowania bazy atrybutów dokumentów. Jednak samo użycie wyszukiwania pełno-tekstowego nie wspiera użytkownika znacząco, ponieważ nadal musi znać dokładną postać wyszukiwanej frazy (wyrazu). Wyszukiwanie pełno-tekstowe pozwala przeszukiwać bardziej ogólne zbiory, ale nie zawiera systemu podpowiedzi lub chociaż korekty zapytań użytkownika np. w przypadku błędów ortograficznych. Taki poziom funkcjonalności można osiągnąć wykorzystując przy formułowaniu zapytań do silników pełno-tekstowych dodatkowych słowników i tworząc logikę potrafiącą z nich korzystać. W ten sposób można wzbogacić system w moduły sprawdzania ortografii w szukanej frazie jak również uzupełnić zapytanie do silnika pełno-tekstowego o synonimy danego wyrazu. Taki układ tworzy swego rodzaju inteligencję podpowiadającą użytkownikowi inne alternatywne formy zapytań prowadzące do uzyskania wyniku.

5 Efektywność wyszukiwania pełno-tekstowego
Dane testowe: plik tekstowy z Wikipedii wyrazów, plików, (średnio po 978 wyrazów każdy). Sprzęt: komputer z procesorem AMD Phenon II X4 945. kod testowy nie był optymalizowany do pracy wielowątkowej system operacyjny nie był specjalnie przygotowany na potrzeby testu. Procedura testowa: wyborze 10 wyrazów z których budowano później zapytania. Wybrany wyraz nie mógł być krótszy niż 7 liter i w zbiorze testowym musiał występować więcej niż w 100 plikach (z uwzględnieniem fleksyjnych form słownikowych). w teście mierzony był czas wykonania zapytania oraz ilość znalezionych plików odniesiona do ich spodziewanej liczby. Celem prezentowanych analiz nie było określenie wydajności algorytmów w danym środowisku testowym, a wykazanie różnic pomiędzy wyszukiwaniem pełno-tekstowym z wykorzystaniem słownika fleksyjnego i wyszukiwaniem „fuzzy”. Biblioteka Apache Lucene (2.4.0) oferuje nie tylko wyszukiwanie „fuzzy”, bazujące na odległościach Levenshteina, ale również udostępnia rozbudowany język zapytań, uwzględniając operatory logiczne oraz "~".

6 Efektywność wyszukiwania pełno-tekstowego
Wyniki przykładowych testów: Procedura testowa oparta została o operator OR. Czyli za trafienie przyjmowane było znalezienie pliku, który zawierał przynajmniej jeden wyraz zawarty w zapytaniu. Ten operator był domyślnym, dlatego zapytanie w formie: substrat siłownia jest identyczne z: substrat OR siłownia. Do silnika wyszukującego Lucene skierowane było 10 zapytań, każde w 4 wariantach: w pierwszym poszukiwane słowo było uzupełniane o formy fleksyjne z słownika np.: wyraz substrat był przekształcany na (substrat OR substracie OR substratach OR substratami OR substratem OR substratom OR substratowi OR substratów OR substratu OR substraty), pozostałe trzy warianty wykorzystywały jedno z przybliżeń: 0.5, 0.7, 0.9, czyli słowo substrat zamieniany był na substrat~0.5 (takie przybliżenie pozwala na znalezienie wyrazu, będącego przybliżeniem szukanego w wymiarze 50% odległości Levenshteina).

7 Efektywność wyszukiwania pełno-tekstowego
Z zamieszczonych wykresów wynika, że czas wykonania zapytania opartego o słownik jest porównywalny do zapytania z przybliżeniem ~0.9. Porównując te dwa zapytania można zauważyć, że ilość znalezionych plików z szukanymi wyrazami w przypadku zapytania z przybliżeniem ~0.9 jest większa od spodziewanej. Użycie słownika natomiast zwraca wynik zbliżony dla wcześniejszego przybliżenia. Gorszy wynik dla większej ilości wyrazów dało użycie przybliżenia ~0.7, dodatkowo zajmowało zdecydowanie więcej czasu. Dla zapytania składającego się z 6 wyrazów i przybliżenia ~0.5 system zwracał zbyt dużo wyników, co było okupione znacznym czasem wykonania.

8 maksymalny rozmiar ukrywanej informacji
Notatki – cyfrowe znaki wodne LW x LK maksymalny rozmiar ukrywanej informacji w bitach w bajtach w arkuszach A4 688 x 912 9804 1225 ok. ¼ arkusza 1368 x 1824 38988 4873 pełny 1 arkusz 2056 x 2736 87894 10986 więcej niż 2 Znak wodny w prezentowanym systemie wpisywany jest do oryginalnych dokumentów (obrazów zapisywanych w standardzie jpg) za pośrednictwem dodatkowego sygnału, nazywanego nośną, którym jest pseudolosowy szum N. Powstająca w ten sposób nośna N’, jest następnie kodowana przy wykorzystaniu oddzielnego sygnału K, pełniącego w systemie rolę klucza symetrycznego. Tak zakodowana nośna, jest wbudowywana następnie w oryginalny dokument O, tworząc nierozróżnialny dla obserwatora dokument O’. Sygnał K tworzony jest natomiast wg ustalonego szablonu na podstawie znacznie mniejszego, bo o wymiarze 16 x 16 pikseli, wzorcowego obrazu k, którym musi dysponować zarówno nadawca jak i odbiorca tak ukrywanej informacji w celu jej poprawnego odczytania. O wyborze takiej techniki zdecydowały, oprócz ww. aspektów dotyczących ukrywania informacji w zeskanowanych dokumentach tekstowych, bardzo dobre własności jakie wykazuje sygnał o charakterystyce nośnej N z punktu widzenia technik znakowania wodnego, zwłaszcza w odniesieniu do pojemności znaku.

9 Podsumowanie przy wyszukiwaniu pełno-tekstowym dla języka polskiego
warto korzystać z słowników odmiany fleksyjnej. - czas wykonywania zapytania zawierającego wiele form fleksyjnych wcale nie jest znacząco dłuższy, a w niektórych przypadkach nawet krótszy od zapytań z przybliżeniem - znaki wodne pozwalają na łączenie dokumentów tekstowych, obrazów, sekwencji wideo oraz audio z dodatkowym, uzupełniającym je opisem w ramach jednej, tej samej, wspólnej reprezentacji cyfrowej. Narzut związany z budową zapytania opartego o słownik zwraca się w postaci dokładnych wyników. Dlatego środowisko Lucene stanowi doskonałe uzupełnienie możliwości baz danych o wydajny silnik wyszukiwania pełno-tekstowego. Wykorzystane technologie pozwoliły na stworzenie elastycznego systemu, który może być wykorzystywany w różnych dziedzinach: np. systemach rejestracji medycznej, systemach typu workflow. Obecnie trwaja testy naszego systemu w jednym z polskich sądów.

10 Dziękuję za uwagę !


Pobierz ppt "Techniki digitalizacji, organizowania oraz efektywnego wyszukiwania informacji z dokumentów tekstowych Remigiusz Baran, Andrzej Dziech, Paweł Fornalski,"

Podobne prezentacje


Reklamy Google