Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

Techniki digitalizacji, organizowania oraz efektywnego wyszukiwania informacji z dokumentów tekstowych Remigiusz Baran, Andrzej Dziech, Paweł Fornalski,

Podobne prezentacje


Prezentacja na temat: "Techniki digitalizacji, organizowania oraz efektywnego wyszukiwania informacji z dokumentów tekstowych Remigiusz Baran, Andrzej Dziech, Paweł Fornalski,"— Zapis prezentacji:

1 Techniki digitalizacji, organizowania oraz efektywnego wyszukiwania informacji z dokumentów tekstowych Remigiusz Baran, Andrzej Dziech, Paweł Fornalski, Tomasz Ruść, Przemysław Ślusarczyk

2 2 Plan prezentacji - Motywacja - Architektura systemu - Efektywność wyszukiwania pełno-tekstowego - Wykorzystanie cyfrowych znaków wodnych - Podsumowanie

3 3 Motywacja Stworzenie elastycznego systemu, umożliwiającego przyjazne zarządzanie bibliotekami cyfrowymi z wykorzystaniem najnowszych technik i innowacyjnych rozwiązań w postaci: - wyszukiwanie pełno-tekstowe z wykorzystaniem słowników fleksyjnych - elektroniczne notatki (indywidualne uwagi i komentarze) - niejawne uzupełniające informacje techniczne z wykorzystaniem technik znakowania wodnego

4 Architektura systemu

5 Efektywność wyszukiwania pełno-tekstowego Dane testowe: -plik tekstowy z Wikipedii wyrazów, plików, (średnio po 978 wyrazów każdy). Sprzęt: - komputer z procesorem AMD Phenon II X kod testowy nie był optymalizowany do pracy wielowątkowej - system operacyjny nie był specjalnie przygotowany na potrzeby testu. Procedura testowa: -wyborze 10 wyrazów z których budowano później zapytania. Wybrany wyraz nie mógł być krótszy niż 7 liter i w zbiorze testowym musiał występować więcej niż w 100 plikach (z uwzględnieniem fleksyjnych form słownikowych). - w teście mierzony był czas wykonania zapytania oraz ilość znalezionych plików odniesiona do ich spodziewanej liczby.

6 Efektywność wyszukiwania pełno-tekstowego Wyniki przykładowych testów:

7 Efektywność wyszukiwania pełno-tekstowego

8 Notatki – cyfrowe znaki wodne L W x L K maksymalny rozmiar ukrywanej informacji w bitachw bajtachw arkuszach A4 688 x ok. ¼ arkusza 1368 x pełny 1 arkusz 2056 x więcej niż 2

9 Podsumowanie - przy wyszukiwaniu pełno-tekstowym dla języka polskiego warto korzystać z słowników odmiany fleksyjnej. - czas wykonywania zapytania zawierającego wiele form fleksyjnych wcale nie jest znacząco dłuższy, a w niektórych przypadkach nawet krótszy od zapytań z przybliżeniem - znaki wodne pozwalają na łączenie dokumentów tekstowych, obrazów, sekwencji wideo oraz audio z dodatkowym, uzupełniającym je opisem w ramach jednej, tej samej, wspólnej reprezentacji cyfrowej.

10 Dziękuję za uwagę !


Pobierz ppt "Techniki digitalizacji, organizowania oraz efektywnego wyszukiwania informacji z dokumentów tekstowych Remigiusz Baran, Andrzej Dziech, Paweł Fornalski,"

Podobne prezentacje


Reklamy Google