Techniki digitalizacji, organizowania oraz efektywnego wyszukiwania informacji z dokumentów tekstowych Remigiusz Baran, Andrzej Dziech, Paweł Fornalski,

Slides:

Advertisements

Podobne prezentacje

DVB-S Tomasz Bartkowiak Maciej Januszewski Paweł Kryszkiewicz

Advertisements

Zastosowanie LDAP w obsłudze katalogów bibliotecznych

Biblioteka szkolna „W bibliotece znajdziesz wszystko, czego chcesz, starą prawdę, mądrą bajkę, piękny wiersz” (Krystyna Wodnicka)

Prezentacja na temat Dos`a. Wykonał: Tomasz Kucharczyk

Rola komputera w przetwarzaniu informacji.

Multimedia, prezentacje, wideo, dokumenty elektroniczne

Budowa i funkcje elektronicznego katalogu biblioteki szkolnej

Zastosowania geodezyjne

Systemy operacyjne.

Wykład 2 struktura programu elementy języka typy zmienne

Artur Szmigiel Paweł Zarębski Kl. III i

Efektywna transmisja plików za pomocą TCP Piotr Kasprzyk Instytut Informatyki Politechniki Śląskiej.

Multimedialne bazy danych

Autor: Maciej Piwowarczyk

Made by Mateusz Szirch Kilka słów o JavaScript.

Temat: Porządkowanie i ochrona dokumentów komputerowych.

Strategia skutecznego szukania informacji w Internecie

Gra Scrabble ® na urządzenie Nokia N800 Autor: Michał Filipowicz Promotor: dr inż. Jerzy Zaczek Konsultant: mgr inż. Krzysztof Rzecki.

REGIONALNY SYSTEM GOSPODARKI ODPADAMI KOMUNALNYMI W POLSCE Sprawdzone rozwiązania w gospodarce odpadami komunalnymi Odzysk frakcji materiałowych z odpadów.

„Ukryte” zasoby Internetu

Biblioteka Miejskiego Zespołu Szkół nr 4 im

Instytut Tele- i Radiotechniczny WARSZAWA

Uniwersytet Mikołaja Kopernika Wydział Fizyki, Astronomii i Informatyki Stosowanej Podyplomowe Studium programowania i Zastosowań Komputerów Repetytorium.

Digitalizacja obiektów muzealnych

Systemy operacyjne.

Użytkowanie komputerów

Piotr Karpiński 0,5 min. “Dzień dobry, nazywam się Piotr Karpiński

Uniwersytet Mikołaja Kopernika Wydział Fizyki, Astronomii i Informatyki Stosowanej Podyplomowe Studium Programowania i Zastosowań Komputerów Marcin Hankiewicz.

KOMUNIKACJA MULTIMEDIALNA ĆWICZENIA

Autor: Justyna Radomska

Rozporządzenie MEN z 7 lutego 2012 roku Pojawia się tam zapis język obcy ukierunkowany zawodowo- Efekty kształcenia wspólne dla wszystkich zawodów Efekty.

XML – eXtensible Markup Language

Implementacja systemu

Zaprojektowanie i wykonanie prototypowego systemu obiegu dokumentów (workflow) dla Dziekanatu Wydziału z wykorzystaniem narzędzi open-source i cloud computing.

POŚREDNIK Jak reprezentowana jest informacja w komputerze? liczby – komputer został wymyślony jako zaawansowane urządzenie służące do wykonywania.

Autor: Joanna Barańska Promotor: dr inż. Paweł Figat Konsultant:

Mirosław Górny Maria Śliwińska

Książka elektroniczna w WBP w Opolu. Formy udostępnień i statystyki

Technologie informacyjne II

Treści multimedialne - kodowanie, przetwarzanie, prezentacja Odtwarzanie treści multimedialnych Andrzej Majkowski 1 informatyka +

Biblioteka Wyższej Szkoły Bankowej w Gdyni.  możliwość zamawiania, rezerwowania oraz przedłużania terminu zwrotu książek,  dostęp ze strony

HTML (ang. HyperText Markup Language ) – język do tworzenia stron internetowych opierający się na znacznikach, czy inaczej je nazywając – tagach. Język.

Informatyka – szkoła gimnazjalna – Scholaris - © DC Edukacja Wprowadzenie do kaskadowych arkuszy stylów Informatyka.

Informatyka – szkoła podstawowa – Scholaris - © DC Edukacja OnetSkype, czyli komunikator Internetowy Informatyka.

Beata Sanakiewicz. Spis treści  Łączenie dokumentów Łączenie dokumentów  Mechanizm OLE Mechanizm OLE  Obiekt osadzony Obiekt osadzony  Obiekt połączony.

Iga Lewandowska I EMII MU

Lekcje z komputerem, 2006.

Wykorzystanie modułu skanów Systemu C2

I TY ZOSTAŃ WEBMASTEREM! CZĘŚĆ 2 – „STRUKTURA STRONY” STWORZYŁ GABRIEL ŚLAWSKI.

BUDOWA WEWNĘTRZNA KOMPUTERA

Użycie języka w procesie porozumiewania się. GEST to dowolny ruch wykonywany przez kogoś świadomie lub nie. MIMIKA to ruchy mięśni twarzy wyrażające.

Temat: Jak działa antywirus? _________________________________________________________________________________________________________________ [ Przedmiot:

Pełnosprawny Student IX Kraków, 3 listopada 2015 r. Akademicka Biblioteka Cyfrowa Międzyuczelniana biblioteka materiałów dostępnych w wersjach elektronicznych.

Foldery i Pliki Marcin Wojnowski.

Biblioteka szkolna „W bibliotece znajdziesz wszystko, czego chcesz, starą prawdę, mądrą bajkę, piękny wiersz” (Krystyna Wodnicka)

Dokumentacja programu komputerowego i etapy tworzenia programów.

Środowisko wspomagania automatycznej instalacji GNU/Linux „Multistart” prezentacja pracy dyplomowej Marta i Paweł Szcześniak.

Przewodnik Wyszukiwanie eKsiążek EBSCO.

IX Konferencja "Uniwersytet Wirtualny: model, narzędzia, praktyka" PIOTR TKACZ Studium e-Learningu Wyższej Szkoły Zarządzania Ochroną Pracy w Katowicach.

InMoST Wielkopolska sieć współpracy w zakresie innowacyjnych metod wytwarzania oprogramowania Termin realizacji: – Innowacyjne metody.

TECHNOLOGIE MULTIMEDIALNE

Egzamin gimnazjalny z języka angielskiego - poziom podstawowy.

Systemy operacyjne. Pliki i foldery.

Jak uzyskać certyfikat po szkoleniu?

Wstęp do Informatyki - Wykład 6

Egzamin gimnazjalny z języka angielskiego - poziom podstawowy.

Wyniki próbnego egzaminu gimnazjalnego – język obcy nowożytny.

Instrukcja wykorzystania oprogramowania „Forms” wchodzącego w skład pakietu usług chmury cyfrowej Office 365.

Zapis prezentacji:

Techniki digitalizacji, organizowania oraz efektywnego wyszukiwania informacji z dokumentów tekstowych Remigiusz Baran, Andrzej Dziech, Paweł Fornalski, Tomasz Ruść, Przemysław Ślusarczyk Nasza grupa zajmuje się wyszukiwaniem w repozytoriach tekstowych w języku polskim. Dlatego w swoim przemówieniu chciałbym przedstawic efektywnosc wyszukiwania pelnotekstowego w polaczeniu z wykorzystaniem słowników fleksyjnych, oraz okresleniu informacji tekstowej jaka może być ukryta w obrazie w postaci niewidocznego cyfrowego znaku wodnego. Przed omówieniem tych dwóch zagadnienień przedstawię ogólne założenia dla stworzonego przez nas systemu przetwarzającego dokumenty tekstowe. 2017-03-26

Plan prezentacji - Motywacja - Architektura systemu - Efektywność wyszukiwania pełno-tekstowego - Wykorzystanie cyfrowych znaków wodnych - Podsumowanie Na początku prezentacji przedstawie cel naszych badań. Następnie omówie ogólną koncepcję naszego systemu który pozwala na efektywną cyfryzację, gromadzenie i katalogowanie dokumentów tekstowych. Dzięki temu opisowi możliwe będzie zaprezentowanie efektywności wyszukiwania wspieranego m.in. poprzez elektroniczny słownik fleksyjny oraz indekser oparty na bibliotece Lucene. Dodatkowo w systemie zaimplementowano możliwość wprowadzania notatek adnotacji jawnych niejawnych. Notatki niejawne są ukrywane za pomocą technologii znaków wodnych. Dlatego dokonalismy testow pojemnosci znaku wodnego. Moja prezentację zkończy podsumowanie i wnioski końcowe. 2017-03-26 2

Motywacja Stworzenie elastycznego systemu, umożliwiającego przyjazne zarządzanie bibliotekami cyfrowymi z wykorzystaniem najnowszych technik i innowacyjnych rozwiązań w postaci: wyszukiwanie pełno-tekstowe z wykorzystaniem słowników fleksyjnych elektroniczne notatki (indywidualne uwagi i komentarze) niejawne uzupełniające informacje techniczne z wykorzystaniem technik znakowania wodnego Naszym głównym celem było stworzenie systemu który umożliwiałby uniwersalne zarządzanie bibliotekami cyfrowymi. W tym celu wykorzystano cały szereg innowacyjnych rozwiązań takich jak: Wyszukiwanie zbiorów odbywa się dzięki połączeniu indeksera Lucene ze słownikiem fleksyjnym. Archiwizowane dane mogą być dodatkowo oznaczane notatkami jawnymi i niejawnymi. Przy znakowaniu niejawnym została wykorzystana technika znakowania wodnego, którego algorytm omówię w dalszej części prezentacji. 2017-03-26 3

Architektura systemu 2017-03-26 Stworzony przez nas system zapewnia spójność pomiędzy wersją papierową i cyfrową dokumentów. Zostało to osiągnięte przez wydzielenie punktu wprowadzania dokumentów do systemu pod nadzorem technika, który odpowiada za spójność dokumentów w różnych formatach. Pracownik techniczny skanuje dokumenty, a następnie uruchomia dla nich OCR. Taka postać dokumentu po wprowadzeniu do repozytorium nie ulega dalszej edycji. W naszym systemie centralną rolę odgrywa repozytorium zlokalizowane na serwerze. Użytkownicy mają dostęp do repozytorium dzięki protokołowi https w dwojaki sposób: przez przeglądarkę internetową albo dzięki aplikacji zainstalowanej na komputerze przenośnym. W tym drugim przypadku użytkownik mający odpowiednie uprawnienia do danych może zaimportować zbiór dokumentów dotyczących konkretnego zagadnienia/sprawy. Tworząc w ten sposób na swoim komputerze prywatne repozytorium mobilne. Serwer zarządza dokumentami poprzez ich przechowywanie jak również oferuje wparcie dla pracy grupowej w postaci np. kategoryzowania czy wykrywania konfliktów edycyjnych (w zakresie tworzonych notatek, które są nanoszone na zeskanowany dokument w postaci dodatkowej warstwy). Drugim zadaniem jakie powinien obsługiwać serwer jest wsparcie dla lokalizowania dokumentów w serwerze. W większości obecnych systemów odbywa się to poprzez formułowanie zapytań, głównie SQL, do serwera, głównie bazodanowego, który odpytuje szereg atrybutów związanych z dokumentem. Podstawową wadą takiego systemu jest konieczność zbudowania “bazy wiedzy” dokumentu, czyli utworzenia zbioru atrybutów dokumentu po których można przeszukiwać. Obecnie coraz powszechniejsze bywa stosowanie wyszukiwania pełno-tekstowego. System oparty o taki mechanizm nie wymaga dużego nakładu pracy poświęconemu budowania bazy atrybutów dokumentów. Jednak samo użycie wyszukiwania pełno-tekstowego nie wspiera użytkownika znacząco, ponieważ nadal musi znać dokładną postać wyszukiwanej frazy (wyrazu). Wyszukiwanie pełno-tekstowe pozwala przeszukiwać bardziej ogólne zbiory, ale nie zawiera systemu podpowiedzi lub chociaż korekty zapytań użytkownika np. w przypadku błędów ortograficznych. Taki poziom funkcjonalności można osiągnąć wykorzystując przy formułowaniu zapytań do silników pełno-tekstowych dodatkowych słowników i tworząc logikę potrafiącą z nich korzystać. W ten sposób można wzbogacić system w moduły sprawdzania ortografii w szukanej frazie jak również uzupełnić zapytanie do silnika pełno-tekstowego o synonimy danego wyrazu. Taki układ tworzy swego rodzaju inteligencję podpowiadającą użytkownikowi inne alternatywne formy zapytań prowadzące do uzyskania wyniku. 2017-03-26

Efektywność wyszukiwania pełno-tekstowego Dane testowe: plik tekstowy z Wikipedii 29 259 960 wyrazów, 29 919 plików, (średnio po 978 wyrazów każdy). Sprzęt: komputer z procesorem AMD Phenon II X4 945. kod testowy nie był optymalizowany do pracy wielowątkowej system operacyjny nie był specjalnie przygotowany na potrzeby testu. Procedura testowa: wyborze 10 wyrazów z których budowano później zapytania. Wybrany wyraz nie mógł być krótszy niż 7 liter i w zbiorze testowym musiał występować więcej niż w 100 plikach (z uwzględnieniem fleksyjnych form słownikowych). w teście mierzony był czas wykonania zapytania oraz ilość znalezionych plików odniesiona do ich spodziewanej liczby. Celem prezentowanych analiz nie było określenie wydajności algorytmów w danym środowisku testowym, a wykazanie różnic pomiędzy wyszukiwaniem pełno-tekstowym z wykorzystaniem słownika fleksyjnego i wyszukiwaniem „fuzzy”. Biblioteka Apache Lucene (2.4.0) oferuje nie tylko wyszukiwanie „fuzzy”, bazujące na odległościach Levenshteina, ale również udostępnia rozbudowany język zapytań, uwzględniając operatory logiczne oraz "~". 2017-03-26

Efektywność wyszukiwania pełno-tekstowego Wyniki przykładowych testów: Procedura testowa oparta została o operator OR. Czyli za trafienie przyjmowane było znalezienie pliku, który zawierał przynajmniej jeden wyraz zawarty w zapytaniu. Ten operator był domyślnym, dlatego zapytanie w formie: substrat siłownia jest identyczne z: substrat OR siłownia. Do silnika wyszukującego Lucene skierowane było 10 zapytań, każde w 4 wariantach: w pierwszym poszukiwane słowo było uzupełniane o formy fleksyjne z słownika np.: wyraz substrat był przekształcany na (substrat OR substracie OR substratach OR substratami OR substratem OR substratom OR substratowi OR substratów OR substratu OR substraty), pozostałe trzy warianty wykorzystywały jedno z przybliżeń: 0.5, 0.7, 0.9, czyli słowo substrat zamieniany był na substrat~0.5 (takie przybliżenie pozwala na znalezienie wyrazu, będącego przybliżeniem szukanego w wymiarze 50% odległości Levenshteina). 2017-03-26

Efektywność wyszukiwania pełno-tekstowego Z zamieszczonych wykresów wynika, że czas wykonania zapytania opartego o słownik jest porównywalny do zapytania z przybliżeniem ~0.9. Porównując te dwa zapytania można zauważyć, że ilość znalezionych plików z szukanymi wyrazami w przypadku zapytania z przybliżeniem ~0.9 jest większa od spodziewanej. Użycie słownika natomiast zwraca wynik zbliżony dla wcześniejszego przybliżenia. Gorszy wynik dla większej ilości wyrazów dało użycie przybliżenia ~0.7, dodatkowo zajmowało zdecydowanie więcej czasu. Dla zapytania składającego się z 6 wyrazów i przybliżenia ~0.5 system zwracał zbyt dużo wyników, co było okupione znacznym czasem wykonania. 2017-03-26

maksymalny rozmiar ukrywanej informacji Notatki – cyfrowe znaki wodne LW x LK maksymalny rozmiar ukrywanej informacji w bitach w bajtach w arkuszach A4 688 x 912 9804 1225 ok. ¼ arkusza 1368 x 1824 38988 4873 pełny 1 arkusz 2056 x 2736 87894 10986 więcej niż 2 Znak wodny w prezentowanym systemie wpisywany jest do oryginalnych dokumentów (obrazów zapisywanych w standardzie jpg) za pośrednictwem dodatkowego sygnału, nazywanego nośną, którym jest pseudolosowy szum N. Powstająca w ten sposób nośna N’, jest następnie kodowana przy wykorzystaniu oddzielnego sygnału K, pełniącego w systemie rolę klucza symetrycznego. Tak zakodowana nośna, jest wbudowywana następnie w oryginalny dokument O, tworząc nierozróżnialny dla obserwatora dokument O’. Sygnał K tworzony jest natomiast wg ustalonego szablonu na podstawie znacznie mniejszego, bo o wymiarze 16 x 16 pikseli, wzorcowego obrazu k, którym musi dysponować zarówno nadawca jak i odbiorca tak ukrywanej informacji w celu jej poprawnego odczytania. O wyborze takiej techniki zdecydowały, oprócz ww. aspektów dotyczących ukrywania informacji w zeskanowanych dokumentach tekstowych, bardzo dobre własności jakie wykazuje sygnał o charakterystyce nośnej N z punktu widzenia technik znakowania wodnego, zwłaszcza w odniesieniu do pojemności znaku. 2017-03-26

Podsumowanie przy wyszukiwaniu pełno-tekstowym dla języka polskiego warto korzystać z słowników odmiany fleksyjnej. - czas wykonywania zapytania zawierającego wiele form fleksyjnych wcale nie jest znacząco dłuższy, a w niektórych przypadkach nawet krótszy od zapytań z przybliżeniem - znaki wodne pozwalają na łączenie dokumentów tekstowych, obrazów, sekwencji wideo oraz audio z dodatkowym, uzupełniającym je opisem w ramach jednej, tej samej, wspólnej reprezentacji cyfrowej. Narzut związany z budową zapytania opartego o słownik zwraca się w postaci dokładnych wyników. Dlatego środowisko Lucene stanowi doskonałe uzupełnienie możliwości baz danych o wydajny silnik wyszukiwania pełno-tekstowego. Wykorzystane technologie pozwoliły na stworzenie elastycznego systemu, który może być wykorzystywany w różnych dziedzinach: np. systemach rejestracji medycznej, systemach typu workflow. Obecnie trwaja testy naszego systemu w jednym z polskich sądów. 2017-03-26

Dziękuję za uwagę ! 2017-03-26