Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

Techniki digitalizacji, organizowania oraz efektywnego wyszukiwania informacji z dokumentów tekstowych Remigiusz Baran, Andrzej Dziech, Paweł Fornalski,

Podobne prezentacje


Prezentacja na temat: "Techniki digitalizacji, organizowania oraz efektywnego wyszukiwania informacji z dokumentów tekstowych Remigiusz Baran, Andrzej Dziech, Paweł Fornalski,"— Zapis prezentacji:

1 Techniki digitalizacji, organizowania oraz efektywnego wyszukiwania informacji z dokumentów tekstowych Remigiusz Baran, Andrzej Dziech, Paweł Fornalski, Tomasz Ruść, Przemysław Ślusarczyk 2014-01-11

2 2 Plan prezentacji - Motywacja - Architektura systemu - Efektywność wyszukiwania pełno-tekstowego - Wykorzystanie cyfrowych znaków wodnych - Podsumowanie 2014-01-11

3 3 Motywacja Stworzenie elastycznego systemu, umożliwiającego przyjazne zarządzanie bibliotekami cyfrowymi z wykorzystaniem najnowszych technik i innowacyjnych rozwiązań w postaci: - wyszukiwanie pełno-tekstowe z wykorzystaniem słowników fleksyjnych - elektroniczne notatki (indywidualne uwagi i komentarze) - niejawne uzupełniające informacje techniczne z wykorzystaniem technik znakowania wodnego 2014-01-11

4 Architektura systemu

5 2014-01-11 Efektywność wyszukiwania pełno-tekstowego Dane testowe: -plik tekstowy z Wikipedii 29 259 960 wyrazów, - 29 919 plików, (średnio po 978 wyrazów każdy). Sprzęt: - komputer z procesorem AMD Phenon II X4 945. - kod testowy nie był optymalizowany do pracy wielowątkowej - system operacyjny nie był specjalnie przygotowany na potrzeby testu. Procedura testowa: -wyborze 10 wyrazów z których budowano później zapytania. Wybrany wyraz nie mógł być krótszy niż 7 liter i w zbiorze testowym musiał występować więcej niż w 100 plikach (z uwzględnieniem fleksyjnych form słownikowych). - w teście mierzony był czas wykonania zapytania oraz ilość znalezionych plików odniesiona do ich spodziewanej liczby.

6 2014-01-11 Efektywność wyszukiwania pełno-tekstowego Wyniki przykładowych testów:

7 2014-01-11 Efektywność wyszukiwania pełno-tekstowego

8 2014-01-11 Notatki – cyfrowe znaki wodne L W x L K maksymalny rozmiar ukrywanej informacji w bitachw bajtachw arkuszach A4 688 x 91298041225ok. ¼ arkusza 1368 x 1824389884873pełny 1 arkusz 2056 x 27368789410986więcej niż 2

9 2014-01-11 Podsumowanie - przy wyszukiwaniu pełno-tekstowym dla języka polskiego warto korzystać z słowników odmiany fleksyjnej. - czas wykonywania zapytania zawierającego wiele form fleksyjnych wcale nie jest znacząco dłuższy, a w niektórych przypadkach nawet krótszy od zapytań z przybliżeniem - znaki wodne pozwalają na łączenie dokumentów tekstowych, obrazów, sekwencji wideo oraz audio z dodatkowym, uzupełniającym je opisem w ramach jednej, tej samej, wspólnej reprezentacji cyfrowej.

10 2014-01-11 Dziękuję za uwagę !


Pobierz ppt "Techniki digitalizacji, organizowania oraz efektywnego wyszukiwania informacji z dokumentów tekstowych Remigiusz Baran, Andrzej Dziech, Paweł Fornalski,"

Podobne prezentacje


Reklamy Google