Wprowadzenie do budowy usług informacyjnych

Slides:



Advertisements
Podobne prezentacje
INSTRUKCJA KORZYSTANIA Z KATALOGU ON-LINE
Advertisements

Jak szukać potrzebną pozycję w „Programie Mol”
Informacja multimedialna w bibliotece
Gambit Centrum Oprogramowania i Szkoleń Sp. z o.o Kraków, al.Pokoju 29B/ Autoryzowany dystrybutor Thomson-Reuters.
Rafał Hryniów Tomasz Pieciukiewicz
INDEKSY I SORTOWANIE ZEWNĘTRZNE
przetwarzaniu informacji
Bazy danych zastosowania i skutki Prentice Hall8.2 O czym będzie Elektroniczna przechowalnia informacji: podstawy baz danych Nieco dalej: Systemy.
Komponenty bazy danych Baza danych Jest to uporządkowany zbiór powiązanych ze sobą danych charakterystycznych dla pewnej klasy obiektów lub zdarzeń,
Budowa i funkcje elektronicznego katalogu biblioteki szkolnej
Wyszukiwanie zaawansowane w środowisku internetowym Maja Wilczewska-Wojczyszyn.
Support.ebsco.com EBSCOhost Wyszukiwanie podstawowe dla Bibliotek akademickich Szkolenie.
Klasyfikacja dokumentów tekstowych w oparciu o blogi
Wprowadzenie do budowy usług informacyjnych
Wykład 2: Systemy klasy C.A.T. (Computer-Aided Translation)
Ukryte indeksowanie semantyczne SVD Struktury danych
Multimedialne bazy danych
Bibliografia Geologiczna Polski Baza danych
Bibliotekarz – odkrywca. Agenda Proces tworzenia informacji Indeksy wyszukiwawcze Budowa rekordu w Promaxie Zapytania.
Bazy Danych Dr inż. Mariusz Tupaj
Strategia skutecznego szukania informacji w Internecie
Systemy zarządzania treścią Wykład 1
Mariusz Polarczyk, Zofia Kasprzak
Technologia informacyjna
Podstawowe pojęcia i problemy związane z przetwarzaniem plików graficznych.
Zbiory biblioteczne W bibliotekach gromadzone są różnorodne zbiory, między innymi: książki, filmy na kasetach VHS oraz DVD, różne programy multimedialne,
Zasoby Internetowe Oxford University Press Niniejsza prezentacja opisuje Oxford Journals Collection. Podaje krótką charakterystykę kolekcji Oxford Journals.
Poszukiwanie informacji w bibliotece oprac. Iwona Basak
BIBLIOTEKA WYŻSZEJ SZKOŁY ADMINISTRACJI I BIZNESU INSTRUKCJA KORZYSTANIA Z KATALOGU ON-LINE.
Wanda Klenczon Biblioteka Narodowa
Podstawy tworzenia stron WWW
Bazy danych podstawowe pojęcia
Autor: Justyna Radomska
XML – eXtensible Markup Language
Moduł: Informatyka w Zarządzaniu
Wybrane zagadnienia relacyjnych baz danych
Tworzenie stron internetowych www World Wide Web
Sieć komputerowa – grupa komputerów lub innych urządzeń połączonych ze sobą w celu wymiany danych lub współdzielenia różnych zasobów, na przykład: korzystania.
Treści multimedialne - kodowanie, przetwarzanie, prezentacja Odtwarzanie treści multimedialnych Andrzej Majkowski 1 informatyka +
Bazy danych Microsoft access 2007.
Opracowała: Edyta Guznowska – nauczyciel-bibliotekarz
BAZA PUBLIKACJI PRACOWNIKÓW, DOKTORANTÓW I STUDENTÓW AMW
IBUK Libra WIRTUALNA CZYTELNIA
W W W Łukasz Stochniał.
PAŃSTWOWA WYŻSZA SZKOŁA ZAWODOWA w PILE BIBLIOTEKA GŁÓWNA.
Wyszukiwanie informacji w internecie
Treści multimedialne - kodowanie, przetwarzanie, prezentacja Odtwarzanie treści multimedialnych Andrzej Majkowski 1 informatyka +
Treści multimedialne - kodowanie, przetwarzanie, prezentacja Odtwarzanie treści multimedialnych Andrzej Majkowski informatyka +
Internet jako środowisko informacyjne wykład
Biblioteki cyfrowe i repozytoria
Automatyczna interpretacja pytań i udzielanie odpowiedzi (Question & Answering)
Temat Prezentacji : ZNACZNIKI META TAGS wyk.H. Kozłowski.
Bazy danych Podstawy relacyjnych baz danych Autor: Damian Urbańczyk.
Zasoby Internetowe Oxford University Press Niniejsza prezentacja opisuje Oxford Journals Collection. Podaje krótką charakterystykę kolekcji Oxford Journals.
Edytory tekstowe stron WWW
Informatyka – szkoła gimnazjalna – Scholaris - © DC Edukacja Tworzenie stron WWW w programie Microsoft FrontPage Informatyka.
BAZY DANYCH MS Access.
Metody komunikacji.
Przewodnik Wyszukiwanie eKsiążek EBSCO.
Prezentacja programu PowerPoint
Biblioteka Zespołu Szkół nr 2 w Mławie opracowała Renata Jurczyńska.
WIZUALIZACJA ZBIORÓW BIBLIOTEKI GŁÓWNEJ POLITECHNIKI WARSZAWSKIEJ Lizbona Agnieszka Maria Kowalczuk, Łukasz Skonieczny, Małgorzata Wornbard.
Przewodnik Wyszukiwarka naukowa EBSCO Discovery Service (EDS)
Hipertekst HTML WWW.
Poradnik: Polska Bibliografia Lekarska - Jak szukać literatury na wybrany temat w Bibliotece i Centrum Informacji Naukowej PMWSZ w Opolu.
Warsztat informacyjny Biblioteki Szkolnej Zespołu Szkół w Gogołowej
Treści multimedialne - kodowanie, przetwarzanie, prezentacja Odtwarzanie treści multimedialnych Andrzej Majkowski informatyka +
między starymi a nowymi czasami
IBUK Libra WIRTUALNA CZYTELNIA
Modele baz danych - spojrzenie na poziom fizyczny
Zapis prezentacji:

Wprowadzenie do budowy usług informacyjnych Uniwersytet Łódzki Katedra Informatyki W. Bartkiewicz Wprowadzenie do budowy usług informacyjnych Wykład 1. Zagadnienia wstępne

Katedra Informatyki Literatura Manning C.D., Raghavan P, Shütze H., An introduction to information retrieval, Cambridge University Press, 2007. Baeza-Yates R., Ribeiro-Neto B., Modern information retrieval, Addison Wesley, 1999. Weiss S.M., Indurkhya N., Zhang T., Damerau F.J., Text mining. Predictive methods for analyzing unstructured information, Springer. 2005. Baldi P., Frasconi P., Smyth P., Modeling the Internet and the Web, Wiley, 2003. Chen Ch., Information visualization. Beyond the horizon, Springer, 2006. Chakrabarti S., Mining the Web. Discovering Knowledge from Hypertext Data, Morgan Kaufmann, 2005.

Katedra Informatyki Literatura Kłopotek M.A., Inteligentne wyszukiwarki internetowe, Akademicka Oficyna Wydawnicza Exit, 2001. Wakulicz-Deja A., Podstawy systemów wyszukiwania informacji, Akademicka Oficyna Wydawnicza PLJ, 1995. Abiteboul S., Buneman P., Suciu D., Dane w sieci WWW – od relacji do modelu semistrukturalnego i XML, Mikom, 2001. Garcia-Molina H., Ullman J.D., Widom J., Implementacja systemów baz danych, WNT, 2003.

Katedra Informatyki Informacja vs dane Usługi informacyjne – programy przetwarzające informacje, dla dostarczenia funkcji wyższego rzędu. Informacja to zinterpretowane dane. Dane przeznaczone są do przetwarzania maszynowego: Źródła danych mają ściśle określoną strukturę, Relacyjne bazy danych, pliki rekordów itp., Znany musi być ich schemat –semantyka każdego elementu danych jest ściśle określona. Ale informacja przeznaczona jest dla człowieka. Ludzie doskonale przetwarzają informację niestrukturalną, mającą postać ogólnie nazywaną „dokumentem”, Dokumenty: teksty, strony webowe i multimedia (grafika, dźwięk, film), Dane (informacje) niestrukturalne nie mają określonego schematu informacji.

Źródła strukturalne i niestrukturalne w 1996 Katedra Informatyki Źródła strukturalne i niestrukturalne w 1996 Źródło: Manning, Raghavan, Shütze, An Introduction to Information Retrieval

Źródła strukturalne i niestrukturalne w 2006 Katedra Informatyki Źródła strukturalne i niestrukturalne w 2006 Źródło: Manning, Raghavan, Shütze, An Introduction to Information Retrieval

Katedra Informatyki Informacja vs dane Nawet jeśli przechowywane dane mają charakter strukturalny, to dla usług informacyjnych wyższego rzędu dostępne są często w postaci niestrukturalnej informacji. Dokumenty słabo ustrukturalizowane. Strony HTML, Teksty podzielone na rozdziały, z wyodrębnionym tytułem, autorami, bibliografią, streszczeniem, itp. Dokumenty semistrukturalne. XML.

Katedra Informatyki Usługi informacyjne Ludzkość gromadziła informacje niemal od zarania swoich dziejów. Początkowo oczywiście informacja zapisywana była na różnego rodzaju nośnikach tradycyjnych – tabliczkach glinianych, papirusach, pergaminie, papierze, itp. oraz gromadzona w ręcznie obsługiwanych zbiorach – archiwach oraz bibliotekach. Dla sprawnego zarządzania często obszernymi zasobami informacji, niezbędne było więc wypracowanie najrozmaitszych metod organizowania, porządkowania i wyszukiwania poszczególnych zapisków (dokumentów). Tak więc, co dziś może wydawać się nieco zaskakujące, korzeni współczesnej informatyki w dużej mierze szukać należy w archiwistyce i bibliotekoznawstwie.

Katedra Informatyki Usługi informacyjne Aby umożliwić odnalezienie niezbędnej informacji w obszernej przestrzeni informacyjnej, stosuje się zazwyczaj różnego rodzaju systemy klasyfikujące (katalogujące), pozwalające na uporządkowanie informacji w obrębie całej kolekcji lub pojedynczego dokumentu. Jedną z pierwszych metod organizacji informacji była alfabetyzacja, czyli klasyfikowanie fragmentów informacji zgodnie porządkiem alfabetycznym. Alfabetyzacja została prawdopodobnie po raz pierwszy zastosowana przez greckich bibliotekarzy już w trzecim stuleciu p.n.e. w słynnej bibliotece Aleksandryjskiej w Egipcie.

Katedra Informatyki Usługi informacyjne Płaskie struktury organizacji informacji są zazwyczaj niewystarczające przy dużych rozmiarach przestrzeni informacyjnej. Aby sprawnie lokalizować poszczególne jej elementy stosuje się na ogół pewne hierarchie informacyjne, pozwalające na stopniową klasyfikację dokumentu do coraz bardziej szczegółowych podgrup na kolejnych poziomach. Również w przypadku organizacji hierarchicznej informacji, początków należy szukać w starożytności. Podział tekstu na księgi, te z kolei na rozdziały stosowany był powszechnie w literaturze antycznej. Pewne elementy klasyfikacji informacji w ramach hierarchii tematycznych wskazuje się dla przykładu w „Historii naturalnej” Pliniusza Starszego (zmarł w 79 roku n.e.), czy też w „Nocach Attyckich” Aulusa Gelliusa (około 160 roku n.e.)

Katedra Informatyki Usługi informacyjne W pełniejszym jednak zakresie o systemach klasyfikacji tematycznej w dużych kolekcjach dokumentów, można mówić jednak dopiero w czasach zdecydowanie późniejszych. Jako jeden z pierwszych przykładów wymienia się tu system klasyfikacyjny wymyślony przez Tomasza Jeffersona, na potrzeby jego biblioteki w Monticello, która stała się później zalążkiem słynnej Biblioteki Kongresu Stanów Zjednoczonych. W drugiej połowie dziewiętnastego wieku natomiast opracowany został przez Melvila Dewey’a System Klasyfikacji Dziesiętnej, który stanowi do dziś podstawę klasyfikacji tematycznej w wielu bibliotekach Organizowanie informacji systemy klasyfikacji, oparte na różnorodnych strukturach hierarchicznych, stosowane jest również we współczesnych zasobach informacyjnych.

Katedra Informatyki Usługi informacyjne Alternatywną metodą wspomagania przeszukiwania dużych zasobów informacyjnych, również stosowaną do dziś, jest tworzenie różnego rodzaju indeksów. Początkowo, w starożytnym Rzymie przez indeks rozumiano dołączany do zwoju papirusu pokrowiec, zawierający tytuł i czasami nazwisko autora. Pozwalał on na określenie zawartości bez konieczności przeglądania samego zwoju. Stąd też samo słowo indeks zaczęło oznaczać po prostu tytuł pracy. Stopniowo, mniej więcej w ciągu I wieku n.e., znaczenie słowa indeks rozszerzone zostało na spis treści, czasami również z krótkimi streszczeniami poszczególnych rozdziałów.

Katedra Informatyki Usługi informacyjne Indeks w obecnym tego słowa znaczeniu, składający się z słów kluczowych oraz informacji o ich położeniu w dokumencie (lub w obrębie całej kolekcji) pojawia jednak się dopiero po wynalezieniu druku. W starożytnych tekstach, zapisywanych na rulonach, trudno było nawet określić liczbowe wskaźniki położenia. Nie było przecież stron, niepraktycznie byłoby również posługiwać się numerem wiersza. Dopiero w przypadku dokumentów drukowanych w setkach i tysiącach egzemplarzy, możemy mówić o powtarzalności dokumentu. Kopie przepisywane ręcznie, jeśli chodzi o położenie poszczególnych fragmentów tekstu, mogły różnić się między sobą dosyć wyraźnie. Indeksy we współczesnym tego słowa znaczeniu rozwinęły się więc w okresie między drugą połową XV wieku, a wiekiem XVII, w którym kompilowane były już dosyć powszechnie. Początkowo słowa kluczowe w indeksie porządkowane były jedynie według pierwszej litery, pełna alfabetyzacja stała się obowiązująca w XVIII wieku.

Usługi informacyjne Wyszukiwanie informacji Katedra Informatyki Usługi informacyjne Wyszukiwanie informacji Przeglądanie i nawigacja w obszernych, złożonych przestrzeniach informacyjnych Filtrowanie i rekomendacja Organizowanie skojarzeniowe zbiorów informacji Wizualizacja zasobów informacyjnych Zaawansowane usługi informacyjne Ekstrakcja wiedzy i informacji Wnioskowanie w oparciu o bazę informacji. Systemy odpowiedzi na zapytania, rozumowania opartego na przypadkach Sumaryzacja (streszczanie) dokumentów i zbiorów informacji Generowanie powiązań między dokumentami Automatyczne tłumaczenie

Technologie Wyszukiwanie informacji Klasyfikacja dokumentów Katedra Informatyki Technologie Wyszukiwanie informacji Klasyfikacja dokumentów Grupowanie dokumentów Eksploracja tekstu Eksploracja sieci web

Wyszukiwanie informacji – Skanowanie tekstu Katedra Informatyki Wyszukiwanie pełnotekstowe – znajdowanie wszystkich dokumentów, które zawierają podany przez użytkownika łańcuch znaków. Dokładne i przybliżone algorytmy dopasowania wzorca. Jako opis dokumentu tworzy się specjalne drzewo indeksujące, tzw. drzewo przedrostkowe i przyrostkowe (wiele rodzajów – np. trie, PAT, Patricia, itp.), pozwalające na szybkie wyszukiwanie wzorca tekstowego. Wady: Dotyczy wyłącznie dokumentów tekstowych i do pewnego stopnia HTML. Nawet dla dokumentów tekstowych z powodu heterogenicznego charakteru Internetu, trudno czasami pobrać tekst (różne formaty). Tekst może być niedostępny podczas wyszukiwania. Opiera się wyłącznie na dopasowaniu wzorca. Brak możliwości zastosowania podejścia semantycznego.

Wyszukiwanie informacji – Wyszukiwanie oparte na cechach Katedra Informatyki Zamiast indeksować cały tekst zapamiętujemy pewne cechy dokumentu, oddające w pewien sposób jego treść. W dużym stopniu eliminuje to wady podejścia pełnotekstowego. Proces pozyskiwania cech dokumentów nazywamy indeksowaniem. Typowe cechy – wszystkie rodzaje dokumentów. Słowa kluczowe (termy) – pojedyncze słowa lub grupy słów. Dotyczy nie tylko dokumentów tekstowych! Kategorie tematyczne. Kategorie taksonomiczne (hierarchie tematów). Dokumenty tekstowe: Analiza współautorstwa. Analiza cytowania. Dokumenty HTML – analiza połączeń (linków). Cechy specyficzne dokumentów multimedialnych. Cechy całych dokumentów i indeksowanie pól strukturalnych.

Wyszukiwanie informacji – Ocena działania Katedra Informatyki Dokładność wyszukiwania: Odsetek wszystkich wyszukanych dokumentów relewantnych. Zmiana parametrów metod wyszukiwania pozwala zwykle zwiększać dokładność, ale kosztem umieszczenia w zbiorze wynikowym wielu dokumentów nierelewantnych. Precyzja wyszukiwania: Odsetek dokumentów relewantnych w zbiorze wynikowym. Relewantny Nierelewantny Wyszukany tp fp Nie wyszukany fn tn Dokładność R = tp/(tp + fn) Precyzja P = tp/(tp + fp)