Indeksowanie danych w katalogu bibliotecznym Spotkanie Polskiej Grupy Użytkowników Systemu VTLS/Virtua, Gdańsk, 5 czerwca 2014 przygotowała: Iwona Wiśniewska Centrum NUKAT
Plan O indeksowaniu... iPortal vs. Chamo Ujednolicenie zasad - pierwsze podejście Chamo rules Fasety Dane, dane…
Indeksowanie dziś to głównie nazwanie procesów związanych z wyszukiwaniem w Internecie. To dzięki indeksowaniu wyszukiwarka internetowa może podać wynik przeszukiwania miliardów dokumentów w bardzo krótkim czasie. Funkcje indeksowania: 1. analiza treści (tekstu) i budowa odpowiedniego indeksu, 2. gromadzenie metadanych o dokumentach i ich zbiorach, umieszczanie danych w elektronicznych bazach. Konieczne jest tworzenie olbrzymich baz metadanych przechowujących sformalizowane informacje o treści, lokalizacji, ale także jakości dokumentów sieciowych. Metody indeksowania: - intuicyjne (manualne/ręczne), w których procesy analizy, selekcjonowania, przekształcania (tłumaczenia) treści dokumentu opierają się na wiedzy, intuicji i doświadczeniu człowieka. - sformalizowane, w których stosuje się rozwiązania statystyczne lub algorytmy, klucze, mające na celu wyodrębnienie właściwych (najtrafniej i najdokładniej charakteryzujących treść) elementów dokumentu. Wybór metody indeksowania powinien zależeć od konkretnych potrzeb zbioru, danych, itp. Metoda intuicyjna jest nadal powszechnie stosowana, mimo coraz doskonalszego oprogramowania indeksującego. Indeksowanie to proces twórczy, wymagający umysłowego wkładu osoby przygotowującej. Oprogramowanie komputerowe może efektywnie wspomóc w organizacji, kontroli wskaźników, redagowaniu, ustalaniu kolejności czy formatowaniu indeksu, ale nie zastąpi człowieka w procesie ustalania relacji, budowaniu odsyłaczy, podejmowaniu ostatecznej decyzji o wyborze. Nie ma dostatecznie dobrych metod, które mogłyby zagwarantować sukces w wyborze elementów analizowanego materiału. Jakość indeksowania i samych indeksów zależy od kompetencji indeksatora, przestrzegania ustalonych zasad oraz potrzeb użytkownika.
baz bibliograficznych indeksowanie tematowanie klasyfikowanie baz bibliograficznych pełnotekstowe [Indeksowanie wydaje się być terminem nadrzędnym, a tematowanie i klasyfikowanie są jego specyficznymi odmianami. Indeksowanie w rozumieniu opracowania przedmiotowego to: analizowanie dokumentu -> selekcjonowanie informacji z punktu widzenia systemu informacyjno-wyszukiwawczego -> tłumaczenie na wybrany język informacyjno-wyszukiwawczy.] Większość obecnych użytkowników bibliotek przyzwyczajona jest do struktury hipertekstowej i krótkich tekstów. Za warte czytania uważają oni jedynie informacje połączone hiperlinkami lub wyróżnione graficznie na podobieństwo linków. W środowisku cyfrowym łatwiej jest stworzyć sieć powiązań między różnie wyodrębnionymi elementami, łatwiej tez poruszać się po sieci, podążając za automatycznymi odsyłaczami, powiązaniami. Hipertekstowy i hipermedialny może być obecnie nie tylko Internet ale i katalog biblioteczny. Związki inter- i intratekstualne w OPAC-u, których realizację i użytkowanie umożliwiają technologie informacyjne. Związki te dotyczą nie tylko opisu rzeczowego, ale również i opisu bibliograficznego. Opracowanie bibliograficzne i rzeczowe są bardzo często wykonywane przez różne osoby, a to działanie powinno mieć na celu dobro użytkownika i zapewnienie optymalnego dostępu do zasobów.
Indeksowanie – proces składający się z czynności charakteryzowania i znakowania dokumentu w celu późniejszego wyszukania dokumentów relewantnych w stosunku do zapytania użytkownika. W odróżnieniu od klasyfikowania indeksowanie nie przewiduje systematyzacji dokumentów według cech porządkujących charakterystyki wyszukiwawczej. (wg Olgierda Unguriana, Encyklopedia współczesnego bibliotekarstwa polskiego, Wrocław 1976) Większość obecnych użytkowników bibliotek przyzwyczajona jest do struktury hipertekstowej i krótkich tekstów. Za warte czytania uważają oni jedynie informacje połączone hiperlinkami lub wyróżnione graficznie na podobieństwo linków. W środowisku cyfrowym łatwiej jest stworzyć sieć powiązań między różnie wyodrębnionymi elementami, łatwiej tez poruszać się po sieci, podążając za automatycznymi odsyłaczami, powiązaniami. Hipertekstowy i hipermedialny może być obecnie nie tylko Internet ale i katalog biblioteczny. Związki inter- i intratekstualne w OPAC-u, których realizację i użytkowanie umożliwiają technologie informacyjne. Związki te dotyczą nie tylko opisu rzeczowego, ale również i opisu bibliograficznego. Opracowanie bibliograficzne i rzeczowe są bardzo często wykonywane przez różne osoby, a to działanie powinno mieć na celu dobro użytkownika i zapewnienie optymalnego dostępu do zasobów. Indeksowanie współrzędne, w którym pomiędzy użytymi wyrażeniami zachodzi jedynie relacja współwystępowania w tekście – dzięki czemu każde z nich może samodzielnie pełnić funkcję wyszukiwawczą.
Client VIRTUA i CHAMO – możliwe indeksowanie rozłączne iPortal Wyszukiwanie – indeksy, słowa kluczowe, filtry CHAMO Wyszukiwanie – słowa kluczowe, fasety, filtry, indeksy http://193.0.118.54:8080/search/query?theme=test
Katalog NUKAT – zasady indeksowanie ustalone jeszcze przed uruchomieniem katalogu centralnego przez Annę Paluszkiewicz ; w roku 2008 na spotkaniu informatyków propozycja ujednolicenia zasad „W celu efektywnego wyszukiwania dane we wszystkich bazach muszą być jednakowo zindeksowane. Dla każdej kategorii wyszukiwawczej należy ustalić zestaw indeksowanych pól i podpól (…)” (prezentacja Andrzeja Padzińskiego i Doroty Tkaczyk „Wirtualny Katalog Lubelskich Bibliotek Naukowych”) http://centrum.nukat.edu.pl/images/stories/file/szkolenia/materialy_warszt/informatycy_2008/Wirtualny_katalog_lubelski.pdf Katalogi lokalne – indywidualne (lub lokalne) zasady indeksowania ; brak ujednoliconych reguł ; często indeksowanie oferowane przez producenta systemu
Kategorie zdefiniowane (Category Name) Kategorie definiowane przez użytkownika (6XXX – User defined) Author Title Publisher Series Title Subject Notes Numery kontrolne, np. 020, 022, 024 Pola kodowane, np. 039, 047, 048 Pole 260 $a i $e Pola dodatkowych uwag, np. 502, 540 Pole 752 Pola związków dla wydawnictw ciągłych Pola lokalne, np. 592, 593, 594, 901, 902, 976, 977, 980 Pole 856 $u i $q Name Personal/Corporate/Conference Name Author-Name Personal/Name Corporate/Name Conference Author.Title Title Uniform Music-Key MeSH Subject/Local Subject ISBN/ISSN Date/Time Last Modified Local Number Identifier-Standard UCD Classification No. National Bibliographie Zestawienie na podstawie danych nadesłanych przez biblioteki po spotkaniu informatyków w 2008 r. Dane z bibliotek zostały opracowane przez Koleżankę Bożenę Zawistowską, ale w związku z informację od firmy VTLS, że planowana jest zmiana prezentacji danych dla czytelnika (zapowiedź wprowadzenia faset) pomysł zmiany zasad indeksowania został odsunięty na kolejne lata. Obecnie konieczny jest powrót do tematu w związku z rozwojem CHAMO i zaprzestaniem upgrade’u Chameleona. Wszystkie biblioteki indeksują: Author, Title, Publisher, Series Title, Subject, Notes Kilka bibliotek: Name, Personal/Corporate/Conference Name, Author-Name Personal/Name Corporate/Name Conference, Author.Title, Title Uniform, Music-Key, MeSH Subject/Local Subject, ISBN/ISSN, Date/Time Last Modified Pojedyncze biblioteki: Local Number (001, 035), Identifier-standard (035), UCD Classification (080), No. National Bibliographie (015) Dlaczego nikt nie uwzględnia kategorii ‚ Anywhere’ (atrybut 1035)?
Skutki rozbieżnych zasad indeksowania brak kompletnego wyszukania konieczność powtarzania wyszukania w każdym z katalogów różne rezultaty wyszukiwania niedostępność części danych dla multiwyszukiwarek inne… Co powoduje rozbieżności: - umieszczanie niekompatybilnych informacji w tym samym elemencie, - umieszczanie informacji tego samego typu w wielu różnych elementach, - umieszczanie wielu wartości w jednym elemencie jako tekstu ciągłego, - umieszczanie wielu informacji poza schematem (lokalność informacji). Brak jednolitości w interpretowaniu subkategorii metadanych połączony z brakiem wspólnego schematu wartości metadanych musza skutkować problemami w wyszukiwaniu. Inne skutki – irytacja uzytkowników, rezygnacja z poszukiwań, przekonanie o braku dokumentu…
„Organizujemy, bo potrzebujemy wyszukiwać.” Nowe zasady indeksowania wymuszają: planowana zmiana interfejsu katalogu centralnego (Chamo), wprowadzenie faset, rozszerzenie dostępnych filtrów, wzrost liczby rekordów w bazie, wiele informacji w nich zawartych jest niedostępnych dla użytkowników Najważniejszy jest dostęp do informacji – sprawne i efektywne wyszukiwanie w jak największym stopniu satysfakcjonujące odbiorcę. Odszukiwanie informacji najczęściej realizowane jest albo w postaci składającej się ze względnie niezależnych elementów składowych sekwencji aktów wyszukiwawczych, albo poprzez przeglądanie zasobu. Wyszukiwanie jest działaniem bezpośrednim (trafianiem w punkt wyszukiwawczy), podczas gdy przeglądanie, odkrywanie, dochodzenie do informacji składa się często z wielokrotnie powtarzanych sekwencji. Dziś użytkownicy przywiązują ogromną wagę do prezentacji wyszukanych materiałów w postaci listy rankingowej. Rekordy większości katalogów bibliotecznych nie są indeksowane przez wyszukiwarki, spoczywają w pokładach głębokiego Internetu. Dane katalogowe nie są również zintegrowane z zasobami bibliotek cyfrowych i otwartymi repozytoriami. „Organizujemy, bo potrzebujemy wyszukiwać.”
wybór właściwej kategorii Bardzo trudne decyzje… wybór właściwej kategorii nazwy kategorii stoplista liczba faset kolejność faset Tradycyjny podział na wyszukiwanie odrębnie wg autora, odrębnie wg tytułu czy przedmiotu nie jest najlepszy z punktu widzenia użytkownika. Wśród cech OPACów dostosowanych do wymagań użytkowników powinna być możliwość prostego wyszukania za pośrednictwem jednego okna wyszukiwarki oraz spersonalizowanego i wieloaspektowego zawężania wyników przeszukiwania. Wieloaspektowe zawężanie wyników jest nazywane nawigacją, przeglądaniem lub wyszukiwaniem fasetowym. Wyszukiwanie (przeglądanie, nawigacja) fasetowe (nawigacyjne, ‚z przewodnikiem’) wyraża się w podążaniu drogą wskazaną przez kategorie i/lub powiązania. Faseta to jedna strona, płaszczyzna obiektu lub aspekt. Faseta to zasada podziału, według której grupowane są wartości. Wyszukiwanie fasetowe to dobieranie w trakcie kategoryzowania (przypisywania dokumentom wartości metadanych pochodzących z faset lub przypisywania dokumentów do relewantnych faset). Wartości te mogą pochodzić z wszystkich lub tylko wybranych faset, bowiem każda faseta to niezależny aspekt, wymiar czy cecha obiektu. Zawężanie wyników dokonuje się poprzez wpisanie dodatkowego hasła w oknie wyszukiwania (jest ono dodawane do wyjściowego hasła wyszukiwawczego) lub wybranie określonej wartości z repertuaru proponowanego przez system. Liczbę i rodzaj dostępnych faset definiuje się w panelu administracyjnym oprogramowania. Dla zaawansowanych użytkowników dostępne są także możliwości stosowania wielu filtrów jednocześnie. Fasetyzacja jest dobrym sposobem na efektywniejsze zaprezentowanie metadanych. Minusem jest to, że fasety muszą być zadane ‚z góry’, w okresach pomiędzy kolejnymi aktualizacjami mogą nie w pełni przystawać do obrazu rzeczywistości i oczekiwań użytkowników. Dobra fasetyzacja musi być bowiem tworzona, przynajmniej częściowo, przez ludzi. Wybór właściwej kategorii Jedna wspólna kategoria dla haseł głównych czy szczegółowy podział wg etykiet 100/110/111? „Mieszanie” danych w jednej kategorii, np. autor i autor.tytuł. Nazwy kategorii Czy kategoria AUTOR jest nazywana właściwie, jeśli indeksujemy tam wszystkie pola 700? Różnorodność nazw kategorii w poszczególnych katalogach, np.: AUTOR (ciało zbiorowe) lub AUTOR (zbiorowy) lub AUTOR (instytucja) ROK WYDANIA lub DATA WYDANIA TYP DOKUMENTU lub FORMAT lub FORMAT PUBLIKACJI LOKLIZACJA lub KATEGORIA EGZ. Stoplista Jakie są potrzeby użytkowników? Włączona…? Wyłączona…? Liczba faset Jaka liczba będzie optymalna? W bibliotekach 4 (BUW), 9 (BG UG), 6 (BG UP Lublin), 10 (WBP im. Łopacińskiego)
Problemy dotyczące ustawienia faset Wyświetlanie tylko 50 pierwszych pozycji rankingu wystąpień, a co jeśli właściwy dokument to ten z 51 pozycji rankingowej? Zasadność istnienia fasety AUTOR. Czy do wyszukiwania wg nazwy nie służą hasła? Kolejność wyświetlania w fasetach w przypadku takiej samej liczby wystąpień w rekordach – wg kodów z pola 008 a nie pełnej nazwy języka (zob. faseta JĘZYK) Inny przykład: Faseta BIBLIOTEKI – nazwy szeregowane są wg symbolu (np. WA U), a nie pełnej nazwy instytucji. Ustawienie możliwe ale niezwykle pracochłonne. W polach 006 i 008 występuja te same informacje – 006 jest dopełnienie cech fizycznych dokumentu. Zindeksowanie 006 w oderwaniu od 008 nie ma sensu, bo to są dokładnie te same kody. - przeznaczenie czytelnicze - zawartość dokumentu elektronicznego Indeksowanie i fasety są definiowane rozłącznie.
Jakość danych a indeksowanie Informacje zawarte w rekordach bibliograficznych mają wpływ na efektywność wyszukiwania. Znaczenie zyskują dane umieszczone w odpowiednich polach i podpolach. Brak struktury, porządku, organizacji sprawia, że szukana treść staje się albo niezmiernie trudna do pozyskania, albo bezużyteczna, bo zupełnie nie daje się jej wyszukać. Wartości w polach stałej długości niegdyś pomijane lub wypełniane dowolnie trzeba zweryfikować, bo inaczej będą zupełnie nieprzydatne wraz z uruchomieniem Chamo. Uporządkowania wymagają także pola zmiennej długości. Znaczenie ma sformalizowanie, jak największej liczby danych. „Punkty dostępu są integralnym elementem narzędzi dostępu do zasobów.”
Może należy wrócić do problemu ujednolicenia zasad indeksowania – jeśli nie we wszystkich bibliotekach uczestniczących we współkatalogowaniu, to przynajmniej w bibliotekach wykorzystujących to samo oprogramowanie? Przegląd katalogów prezentowanych w Chamo wydaje się zmuszać do rozważenia powyższej propozycji… Zapraszam do dyskusji!
DZIĘKUJĘ ZA UWAGĘ! Iwona Wiśniewska i.wisniewska@uw.edu.pl