Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

Wprowadzenie do budowy usług informacyjnych W. Bartkiewicz Wykład 1. Zagadnienia wstępne.

Podobne prezentacje


Prezentacja na temat: "Wprowadzenie do budowy usług informacyjnych W. Bartkiewicz Wykład 1. Zagadnienia wstępne."— Zapis prezentacji:

1 Wprowadzenie do budowy usług informacyjnych W. Bartkiewicz Wykład 1. Zagadnienia wstępne

2 Literatura Manning C.D., Raghavan P, Shütze H., An introduction to information retrieval, Cambridge University Press, Baeza-Yates R., Ribeiro-Neto B., Modern information retrieval, Addison Wesley, Weiss S.M., Indurkhya N., Zhang T., Damerau F.J., Text mining. Predictive methods for analyzing unstructured information, Springer Baldi P., Frasconi P., Smyth P., Modeling the Internet and the Web, Wiley, Chen Ch., Information visualization. Beyond the horizon, Springer, Chakrabarti S., Mining the Web. Discovering Knowledge from Hypertext Data, Morgan Kaufmann, 2005.

3 Literatura Kłopotek M.A., Inteligentne wyszukiwarki internetowe, Akademicka Oficyna Wydawnicza Exit, Wakulicz-Deja A., Podstawy systemów wyszukiwania informacji, Akademicka Oficyna Wydawnicza PLJ, Abiteboul S., Buneman P., Suciu D., Dane w sieci WWW – od relacji do modelu semistrukturalnego i XML, Mikom, Garcia-Molina H., Ullman J.D., Widom J., Implementacja systemów baz danych, WNT, 2003.

4 Informacja vs dane Usługi informacyjne – programy przetwarzające informacje, dla dostarczenia funkcji wyższego rzędu. Informacja to zinterpretowane dane. Dane przeznaczone są do przetwarzania maszynowego: –Źródła danych mają ściśle określoną strukturę, –Relacyjne bazy danych, pliki rekordów itp., –Znany musi być ich schemat –semantyka każdego elementu danych jest ściśle określona. Ale informacja przeznaczona jest dla człowieka. –Ludzie doskonale przetwarzają informację niestrukturalną, mającą postać ogólnie nazywaną dokumentem, –Dokumenty: teksty, strony webowe i multimedia (grafika, dźwięk, film), –Dane (informacje) niestrukturalne nie mają określonego schematu informacji.

5 Źródła strukturalne i niestrukturalne w 1996 Źródło: Manning, Raghavan, Shütze, An Introduction to Information Retrieval

6 Źródła strukturalne i niestrukturalne w 2006 Źródło: Manning, Raghavan, Shütze, An Introduction to Information Retrieval

7 Informacja vs dane Nawet jeśli przechowywane dane mają charakter strukturalny, to dla usług informacyjnych wyższego rzędu dostępne są często w postaci niestrukturalnej informacji. Dokumenty słabo ustrukturalizowane. –Strony HTML, –Teksty podzielone na rozdziały, z wyodrębnionym tytułem, autorami, bibliografią, streszczeniem, itp. Dokumenty semistrukturalne. –XML.

8 Usługi informacyjne Ludzkość gromadziła informacje niemal od zarania swoich dziejów. Początkowo oczywiście informacja zapisywana była na różnego rodzaju nośnikach tradycyjnych – tabliczkach glinianych, papirusach, pergaminie, papierze, itp. oraz gromadzona w ręcznie obsługiwanych zbiorach – archiwach oraz bibliotekach. Dla sprawnego zarządzania często obszernymi zasobami informacji, niezbędne było więc wypracowanie najrozmaitszych metod organizowania, porządkowania i wyszukiwania poszczególnych zapisków (dokumentów). –Tak więc, co dziś może wydawać się nieco zaskakujące, korzeni współczesnej informatyki w dużej mierze szukać należy w archiwistyce i bibliotekoznawstwie.

9 Usługi informacyjne Aby umożliwić odnalezienie niezbędnej informacji w obszernej przestrzeni informacyjnej, stosuje się zazwyczaj różnego rodzaju systemy klasyfikujące (katalogujące), pozwalające na uporządkowanie informacji w obrębie całej kolekcji lub pojedynczego dokumentu. Jedną z pierwszych metod organizacji informacji była alfabetyzacja, czyli klasyfikowanie fragmentów informacji zgodnie porządkiem alfabetycznym. –Alfabetyzacja została prawdopodobnie po raz pierwszy zastosowana przez greckich bibliotekarzy już w trzecim stuleciu p.n.e. w słynnej bibliotece Aleksandryjskiej w Egipcie.

10 Usługi informacyjne Płaskie struktury organizacji informacji są zazwyczaj niewystarczające przy dużych rozmiarach przestrzeni informacyjnej. Aby sprawnie lokalizować poszczególne jej elementy stosuje się na ogół pewne hierarchie informacyjne, pozwalające na stopniową klasyfikację dokumentu do coraz bardziej szczegółowych podgrup na kolejnych poziomach. Również w przypadku organizacji hierarchicznej informacji, początków należy szukać w starożytności. –Podział tekstu na księgi, te z kolei na rozdziały stosowany był powszechnie w literaturze antycznej. –Pewne elementy klasyfikacji informacji w ramach hierarchii tematycznych wskazuje się dla przykładu w Historii naturalnej Pliniusza Starszego (zmarł w 79 roku n.e.), czy też w Nocach Attyckich Aulusa Gelliusa (około 160 roku n.e.)

11 Usługi informacyjne W pełniejszym jednak zakresie o systemach klasyfikacji tematycznej w dużych kolekcjach dokumentów, można mówić jednak dopiero w czasach zdecydowanie późniejszych. –Jako jeden z pierwszych przykładów wymienia się tu system klasyfikacyjny wymyślony przez Tomasza Jeffersona, na potrzeby jego biblioteki w Monticello, która stała się później zalążkiem słynnej Biblioteki Kongresu Stanów Zjednoczonych. –W drugiej połowie dziewiętnastego wieku natomiast opracowany został przez Melvila Deweya System Klasyfikacji Dziesiętnej, który stanowi do dziś podstawę klasyfikacji tematycznej w wielu bibliotekach Organizowanie informacji systemy klasyfikacji, oparte na różnorodnych strukturach hierarchicznych, stosowane jest również we współczesnych zasobach informacyjnych.

12 Usługi informacyjne Alternatywną metodą wspomagania przeszukiwania dużych zasobów informacyjnych, również stosowaną do dziś, jest tworzenie różnego rodzaju indeksów. Początkowo, w starożytnym Rzymie przez indeks rozumiano dołączany do zwoju papirusu pokrowiec, zawierający tytuł i czasami nazwisko autora. Pozwalał on na określenie zawartości bez konieczności przeglądania samego zwoju. Stąd też samo słowo indeks zaczęło oznaczać po prostu tytuł pracy. Stopniowo, mniej więcej w ciągu I wieku n.e., znaczenie słowa indeks rozszerzone zostało na spis treści, czasami również z krótkimi streszczeniami poszczególnych rozdziałów.

13 Usługi informacyjne Indeks w obecnym tego słowa znaczeniu, składający się z słów kluczowych oraz informacji o ich położeniu w dokumencie (lub w obrębie całej kolekcji) pojawia jednak się dopiero po wynalezieniu druku. –W starożytnych tekstach, zapisywanych na rulonach, trudno było nawet określić liczbowe wskaźniki położenia. Nie było przecież stron, niepraktycznie byłoby również posługiwać się numerem wiersza. –Dopiero w przypadku dokumentów drukowanych w setkach i tysiącach egzemplarzy, możemy mówić o powtarzalności dokumentu. Kopie przepisywane ręcznie, jeśli chodzi o położenie poszczególnych fragmentów tekstu, mogły różnić się między sobą dosyć wyraźnie. Indeksy we współczesnym tego słowa znaczeniu rozwinęły się więc w okresie między drugą połową XV wieku, a wiekiem XVII, w którym kompilowane były już dosyć powszechnie. –Początkowo słowa kluczowe w indeksie porządkowane były jedynie według pierwszej litery, pełna alfabetyzacja stała się obowiązująca w XVIII wieku.

14 Usługi informacyjne Wyszukiwanie informacji Przeglądanie i nawigacja w obszernych, złożonych przestrzeniach informacyjnych Filtrowanie i rekomendacja Organizowanie skojarzeniowe zbiorów informacji Wizualizacja zasobów informacyjnych Zaawansowane usługi informacyjne –Ekstrakcja wiedzy i informacji –Wnioskowanie w oparciu o bazę informacji. Systemy odpowiedzi na zapytania, rozumowania opartego na przypadkach –Sumaryzacja (streszczanie) dokumentów i zbiorów informacji –Generowanie powiązań między dokumentami –Automatyczne tłumaczenie

15 Technologie Wyszukiwanie informacji Klasyfikacja dokumentów Grupowanie dokumentów Eksploracja tekstu Eksploracja sieci web

16 Wyszukiwanie informacji – Skanowanie tekstu Wyszukiwanie pełnotekstowe – znajdowanie wszystkich dokumentów, które zawierają podany przez użytkownika łańcuch znaków. Dokładne i przybliżone algorytmy dopasowania wzorca. Jako opis dokumentu tworzy się specjalne drzewo indeksujące, tzw. drzewo przedrostkowe i przyrostkowe (wiele rodzajów – np. trie, PAT, Patricia, itp.), pozwalające na szybkie wyszukiwanie wzorca tekstowego. Wady: –Dotyczy wyłącznie dokumentów tekstowych i do pewnego stopnia HTML. –Nawet dla dokumentów tekstowych z powodu heterogenicznego charakteru Internetu, trudno czasami pobrać tekst (różne formaty). –Tekst może być niedostępny podczas wyszukiwania. –Opiera się wyłącznie na dopasowaniu wzorca. Brak możliwości zastosowania podejścia semantycznego.

17 Wyszukiwanie informacji – Wyszukiwanie oparte na cechach Zamiast indeksować cały tekst zapamiętujemy pewne cechy dokumentu, oddające w pewien sposób jego treść. –W dużym stopniu eliminuje to wady podejścia pełnotekstowego. –Proces pozyskiwania cech dokumentów nazywamy indeksowaniem. Typowe cechy – wszystkie rodzaje dokumentów. –Słowa kluczowe (termy) – pojedyncze słowa lub grupy słów. Dotyczy nie tylko dokumentów tekstowych! –Kategorie tematyczne. –Kategorie taksonomiczne (hierarchie tematów). Dokumenty tekstowe: –Analiza współautorstwa. –Analiza cytowania. Dokumenty HTML – analiza połączeń (linków). Cechy specyficzne dokumentów multimedialnych. Cechy całych dokumentów i indeksowanie pól strukturalnych.

18 Wyszukiwanie informacji – Ocena działania Dokładność wyszukiwania: Odsetek wszystkich wyszukanych dokumentów relewantnych. –Zmiana parametrów metod wyszukiwania pozwala zwykle zwiększać dokładność, ale kosztem umieszczenia w zbiorze wynikowym wielu dokumentów nierelewantnych. Precyzja wyszukiwania: Odsetek dokumentów relewantnych w zbiorze wynikowym. RelewantnyNierelewantny Wyszukanytpfp Nie wyszukanyfntn Dokładność R = tp/(tp + fn) Precyzja P = tp/(tp + fp)


Pobierz ppt "Wprowadzenie do budowy usług informacyjnych W. Bartkiewicz Wykład 1. Zagadnienia wstępne."

Podobne prezentacje


Reklamy Google