Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

Metadane w polskich bibliotekach cyfrowych

Podobne prezentacje


Prezentacja na temat: "Metadane w polskich bibliotekach cyfrowych"— Zapis prezentacji:

1 Metadane w polskich bibliotekach cyfrowych
Joanna Potęga Biblioteka Narodowa „Cyfrowość bibliotek i archiwów”. Warszawa, listopada 2009

2 Polskie biblioteki cyfrowe
42 w Federacji Bibliotek Cyfrowych FBC – „serwis ten jest zbiorem zaawansowanych usług sieciowych opartych na zasobach cyfrowych dostępnych w polskich bibliotekach cyfrowych i repozytoriach uruchomionych w sieci PIONIER”. inne (biblioteki cyfrowe (PGd, ABI), prezentacje internetowe zdigitalizowanych obiektów (BUJ, KUL)) zasoby: FBC – dostępnych ponad 300 tysięcy obiektów cyfrowych zdigitalizowane zbiory bibliotek, archiwów, muzeów, ośrodków badawczych oraz kolekcje prywatne dokumenty „born digital”

3 Metadane - dlaczego analiza?
jedno miejsce dostępu do metadanych (FBC) przekazywanie metadanych do zagranicznych serwisów (m.in. Europeana) dostęp do informacji (użytkownicy) środowisko / warsztat pracy bibliotekarzy cyfrowych (w kontekście tworzenia metadanych): standardy schematy praktyka

4 Metadane - analiza Biblioteki cyfrowe dostępne w FBC*
40 bibliotek cyfrowych (pominięto PBI oraz planowaną Morską Bibliotekę Cyfrową) Analiza: wrzesień – październik 2009 r. Wykonanie: Agnieszka Wróbel (BUW), Joanna Potęga (BN) * pobieranie metadanych przy pomocy protokołu OAI-PMH w wersji niezależne od stosowanych standardów tworzenia metadanych

5 Metadane - analiza Podstawa opisu (dla materiałów digitalizowanych):
Kopia cyfrowa dokumentu oryginalnego (cechy formalne dok. analogowego wraz z informacjami chrakterystycznymi dla dokumentu cyfrowego) Rozróżnienie wydawcy i dat wyd. (dok. oryg., dok. cyfrowego) - 3 Nowy dokument elektroniczny - 1 Standardy: Dublin Core - 38* MARC Własny * Oprogramowanie: 37 – dLibra 2 – własne 1 – VTLS/Virtua

6 The Dublin Core Metadata Element Set, Ver. 1.1
Zawartość Content Własność intelektualna Intellectual property Dookreślenie Instantiation Tytuł (Title) Twórca (Creator) Data (Date) Temat (Subject) Wydawca (Publisher) Typ (Type) Opis (Description) Współtwórca (Contributor) Format (Format) – Źródło (Source) Prawa (Right) Identyfikator (Identifer) Język (Language) Relacja (Relation) Miejsce i czas (Zakres / zasięg Coverage) Dlaczego wazne oprogramowanie – ze względu na mozliwości jakie oferuje dLibra – czyli Predefiniowany w systemie dLibra zestaw atrybutów zgodny jest ze standardem Dublin Core Metadata Element Set (DCMES) [7] w wersji 1.1 (simple DC), jednak może on być dowolnie zmodyfikowany przez administratora: Zmiana kolejności atrybutów (elementów) administrator może nadać elementowi (atrybutowi) dowolną (unikalna!) nazwę może w domyslnych (oferowanych przez oprogramowanie) atrybutach z przypisanymi juz rolami (15 DC) tworzyc „podatrybuty” (z taką samą rolą jak element „nadrzędny”) Może tworzyć niowe atrybuty definiując dla nich inne role niż przewidziene 15 DC (czyli wychodzić poza schemat DC) tworząc tym samym schemat „lokalny” charakterystyczny dla tej BC Usługa ta umoŜliwia zdefiniowanie schematu atrybutów dostępnego w danej bibliotece cyfrowej. Schemat ten składać się moŜe z dowolnej liczby atrybutów opisujących zasób cyfrowy, taki jak autor, nazwa, opis czy format zasobu. Zestaw ten moŜna dowolnie dostosowywać poprzez zmianę, usuwanie oraz dodawanie nowych atrybutów. W celu zapewnienia zgodności dowolnego zdefiniowanego w systemie dLibra schematu atrybutów ze schematem DCMES, stworzono mechanizm ról atrybutów. W systemie zdefiniowano role atrybutów odpowiadające wszystkim elementom DCMES. KaŜdy atrybut zdefiniowany w systemie dLibra moŜe mieć przypisaną jedną rolę, przy Ŝadna z ról nie moŜe być przypisana do dwóch atrybutów. Dzięki rolom moŜliwe jest określenie, który z atrybutów w konkretnej instancji systemu dLibra odpowiada na przykład tytułowi publikacji. Przy opisywaniu zasobu cyfrowego w systemie dLibra moŜliwe jest wprowadzenie wielu wartości dla kaŜdego ze zdefiniowanych atrybutów – możliwa jest powtrarzalność atrybutu, tak by poszczególne wartości umieszczane były w kolejnym wystąpieniu elementu. . metadane opisowe mogą być importowane z innych formatów takich jak XML (w tym m.in. MASTER, MARCXML i RDF), MARC 21 czy BibTeX.

7 Element Nazwa elementu Wartości Title Creator Subject
Dodatkowe wystąpienie (nazwa elementu) Wartości Title Tytuł Tytuł(y) - 1 Tytuły Inny tutuł - 2 Wariant tytułu - 2 Tytuł oryginału- 1 Podtytuł - 2 Gatunek sceniczny - 1 Miejsce powstania - 1 Data powstania - 1 Tytuły właściwe (z podtytułami lub bez zapisywanymi w róznych konwencjach); tytuły czasopism (numeracja) ; cBN Polona tutył właściw i ozn. wyd. i/lub aders wydaw. Creator Autor Twórca - 3 Konsekwencja w składni: nazwisko, imie, ale braki w dopowiedzeniach (daty biograficzne) dla tej samej osoby Subject Temat i słowa kluczowe - 31 Słowa kluczowe - 2 Hasło przedmiotowe - 2 Hasło przedmiotowe KABA - 1 Dziedzina – 1 Brak - 1 Hasło przedmiotowe - 4 Słowa kluczowe - 1 Słowa kluczowe użytkowników - 1

8 Element Description Publisher Contributor Date Type Nazwa elementu
Dodatkowe wystąpienie (nazwa elementu) Wartości Description Opis - 33 Adnotacje [uwagi] - 2 Uwagi – 2 Brak - 1 Wymiary - 1 Abstrakt - 1 Komentarz - 1 Informacje o innych tytułach, oznaczenie wydania, opis fizyczny, informacje o streszczeniu, defektach, liczbie skanów Publisher Wydawca - 36 Wydawca/Drukarz - 1 Wydanie oryginalne - 1 Miejsce wydania - 20 Drukarz - 2 W elemencie nazwanym „Wydawca” też informacje o miejscu wyd. (część adresu wydawniczego) Contributor Współtwórca - 38 Instytucja sprawcza - 1 Różne sposoby zapisu dopowiedzeń (Wyd., Wydaw. lub ich brak) Date Data wydania - 37 Data wydania oryg. - 1 Data druku - 1 Miejsce wydania - 1 Spotykany zapis: 1999 (wyd. oryg.) ; 2008 (wyd. cyfrowe) Type Typ zasobu - 32 Typ dokumentu - 2 Typ źródła - 1 Rodzaj dokumentu - 1 Typ publikacji – 1 Określenie typu dokumentu oryginalnego ; 631 różnych określeń – rekordowa liczba ; czasopismo - czasopisma

9 Element Format Identifier Source Language Nazwa elementu
Dodatkowe wystąpienie (nazwa elementu) Wartości Format Format 36 Format elektroniczny – 1 Brak - 1 Format pliku cyfrowego zamieszczonego w BC Identifier Identyfikator zasobu Identyfikator - 1 Identyfikator dokumentu cyfrowego Identyfikator publikacji – 1 URL - 1 ISBN - 2 ISSN - 2 Sygnatura oryginału - 1 Identyfikator obiektu cyfrowego - 2 Identyfikator oryginału - 3 Nadawany automatycznie identyfikator OAI, ale też: sygnatura obiektu oryginalnego, przekierowania do opisu katalogowego, numery ISBN, ISSN Source Źródło (32) Źródło- sygn. oryginału (1) Sygnatura (1) Sygnatura oryginału (1) ; Dokument oryg. (1) Brak – 2 Uwagi ; Współoprawny z ; Powiązania ; Prowieniencja ; Linki (wszystkie wystąpienia w 1 BC) Instytucja przechowujca obiekt oryginalny, Language Język – 37 Różne sposoby zapisu informacji o jezyku treści (pol ; polski

10 Element Relation Coverage Rights Nazwa elementu
Dodatkowe wystąpienie (nazwa elementu) Wartości Relation Powiązania - 36 Seria [cykl] - 1 Brak - 1 Katalog GAIK - 1 OPAC WWW kat. online - 1 Seria - 1 Informacje o serii, związki z innymi tytułami, ale też: sygnatury wersji MF, płyt DVD Coverage Zakres - 37 Brak – 1 Element choć wystepuje w schemacie, to jest praktycznie niewykorzystywany – pojawiają się pojedyncze wartości, np. informacje o zastosowanej skali mapy ; w jednej z BC informacja o trybie dostępu Rights Prawa - 36 Prawa do dysponowania publikacją - 1 Licencja - 2 Treść licencji- 1 Tekst - 1 Lokalizacja - 1 Lokalizacja oryginału - 2 Konatakt - 1 Digitalizacja - 2 Sygnatura - 1 Zespół archiwalny - 1 Sygn. - 1 Informacje o miejscu przechowywania oryginału, informacja o właścicielu autorskich praw majątkowych, warunkach udostępniania (przekierowania do treści licencji, regulaminów), informacje o tyrbie dostępu (o ograniczeniach w dostępie do obiektu)

11 Elementy poza DC (rożne nazwy, ale równoważne informacje)
Interpretacja / Wartości Wariant tytułu - 1 Tytuł w języku angielskim - 1 Tłumaczenie tytułu przez BC Wydanie - 1 Informacja o oznaczeniu wydania Miejsce wydania - 4 Opis fizyczny - 1 Seria (1) Tagi - 27 Słowa kluczowe użytkowników - 1 Wyrażenia w języku naturalnym opisujące tematykę zasobu nadawane przez użytkowników Uwagi - 5 Adnotacje - 1 Inf. tech. - 1 Dotyczące oryginału (braki, defekty), dotyczące obiektu cyfrowego (jakości), informacje o powiązaniach (tytuł poprzedni)

12 Elementy poza DC (rożne nazwy, ale równoważne informacje)
Interpretacja / Wartości Numer zespołu archiwalnego - 2 Nazwa zespołu archiwalnego - 1 Uwagi archiwistów - 1 Identyfikator obiektu cyfrowego - 2 Numer identyfikacyjny nośnika? (płyty?) Identyfikator oryginału - 1 Sygnatura BCPW - 1 Sygnatura oryginalna – 1 Sygnatury obiektu analogowego Lokalizacja oryginału- 5 Lokalizacja źródła - 2 Informacja o instytucji przechowującej obiekt OPAC - 1 WebOPAC BN - 1 Przekierowanie do opisu w katalogu komputerowym Pełny opis katalogowy - 1 Link do publikacji w innej BC

13 Elementy poza DC (rożne nazwy, ale równoważne informacje)
Interpretacja / Wartości Digitalizacja - 6 Reprodukcja cyfrowa - 1 Informacje o wykonawcy digitalizacji Sponsor digitalizacji - 2 WWW - 1 WWW – przekierowanie do strony www sponsora digitalizacji Publikacja - 1 Informacja o instytucji umieszczającej obiekt w BC (informacja głownie wykorzystywana do celów statystycznych w danej BC – tam, gdzie BC jest współtworzona przez wiele instytucji Tryb dostępu - 1 Informacja o ograniczeniu w dostepie do siedziby jednostki Strona wydawcy - 1 Przekierowanie do strony internetowej wydawcy

14

15 Metadane w polskich BC BC nie jest katalogiem bibliotecznym
znaczna dowolność przy wpisywaniu danych większa elastyczność i intuicyjność danych (dla użytkownika, ale w konsekwencji: szum informacyjny) brak wsparcia takiego jakie daje KHW w katalogach brak słowników kontrolowanych dla poszczególnych atrybutów (Indeks autorów/twórców, Indeks słów kluczowych)

16 Metadane w polskich BC różnice w interpretacji poszczególnych elementów DC (przy zachowaniu jednorodengo nazewnictwa elementów) nierównoważne informacje w tym samym elemencie informacja tego samego typu w wielu różnych elementach przypadki umieszczania wielu wartości w jednym elemencie jako ciągłego tekstu (brak powtórzeń elementu – brak możliwości wyszukiwania po wartości) umieszczanie wielu informacji poza DC – lokalność informacji

17 Metadane w polskich BC Czynniki wpływające na jakość:
różnorodność zasobów i ich specyfika różnorodność praktyk katalogowych instytucji współtworzących BC (także w BC konsorcyjnych) mechanizmy tworzenia metadanych przez bibliotekarzy / redaktorów cyfrowych (ankieta październik/listopad 2009): 41 bibliotek – 29 odpowiedzi): - tylko import bez ingerencji w dane – 1 - tylko import z ingerencją w dane – 3 - import i też samodzielne tworzenie opisów – 10 - samodzielne tworzenie opisów - 14

18 Metadane w polskich BC Import – dane wyjściowe:
MARC21 – 12 (+1 w przygotowaniu) MARC – 1 MARC BN – 1 MASTER – 1 (plany) Zalecenia do tworzenia opisów: TAK – 27 NIE – 2 Tylko zalecenia ogóle – 15 Tylko zalecenia szczegółowe – 8 Ogólne ze wskazówkami opisu dla poszczególnych typów dokumentów - 4

19 Federacja Bibliotek Cyfrowych
Wyszukiwanie – dane wyłącznie z 15 elementów DC Możliwość rozszerzenia protokołu OAI o dodatkowe elementy (pod warunkiem ujednoliconego schematu) FBC: „Zróżnicowanie tych opisów jest dla nas przeszkodą: - w realizowaniu nowych zaawansowanych funkcji dla czytelników - realizowaniu nowych zaawansowanych funkcji dla twórców bibliotek cyfrowych - przekazywaniu metadanych obiektów z polskich bibliotek cyfrowych do zagranicznych serwisów”* * Adam Dudczak, Marcin Werla Warsztaty nt. Opracowania zasobów bibliotek cyfrowych, Gniezno 6-8 września 2009 r.

20 Europeana – poziomy wymagań
Absolutne minimum: Unikalny i trwały identyfikator obiektu cyfrowego (URL, link do obiektu - isShwonBy i/lub isShownAt) Minimum (z wykorzystaniem uszczegółowień) KTO (dc:creator, dc:contributor itp.) CO (dc:title, europeana:type, dc:language itp.) KIEDY (dc:date itp.) GDZIE (dcterms:spatial itp.) Zwiększenie możliwości dostępu do obiektu: - Rights, Provenance, Format, Relation itp… Europeana miejscem, gdzie spotykają się dane z wielu instytucji Sposób opisu dokumentów bibliotecznych, archiwalnych, muzealnych oraz produkcji radiowej i telewizyjnej nie jest ujednolicony nie tylko w skali europejskiej, lecz również na poziomie poszczególnych krajów. W obliczu tak skomplikowanego problemu (wielojęzyczność, różnorodność formatów, różnorodność pól i ich zawartości, semantyka) twórcy Europeany zdecydowali się na opracowanie własnego optymalnego modelu opisu obiektu (rys. 3), do którego importowane będą dane źródłowe. Tu głównym założeniem było ustalenie wspólnego minimum danych, które identyfikują obiekt i umożliwią jego wyszukanie oraz określenie zestawu pól, który będzie możliwy do rekomendacji dla wszystkich uczestników programu. Przygotowaniu takiego modelu wyraźnie przyświecała idea nieskomplikowanego, prostego opisu, ujednoliconego tak, by znalazły w nim odzwierciedlenie tylko najważniejsze informacje. Niezbędne jest tu też ustalenie listy formatów akceptowanych przy imporcie danych, ponieważ nie jest możliwe opracowanie narzędzi informatycznych dla dokładnie wszystkich formatów wykorzystywanych przez instytucje europejskie. Innymi ważnymi wyzwaniami stojącymi przed grupą ds. metadanych są: określenie zasad wypełniania poszczególnych pól, budowa słownika kontrolowanego oraz opracowanie haseł wzorcowych (głównie autorskich), a przede wszystkim zmierzenie się z problemem wielojęzyczności dostarczanych danych. Prosty klucz: żeby nasz dane odpowiadały na cztery podstawowe pytania: Zastanów się, jak dane będą wykonywać w odpowiedzi na pytania: "kto, co, gdzie i kiedy". Zestaw odpowiedzi powinien obejmować informacje co do nazwy, rodzaju, miejsca i daty powstania obiektu oraz jego tematyki.

21 Europeana Semantic Elements (ESE) 1. Elementy Dublin Core
Title Alternative Creator Subject Description TableofContents Publisher Contributor Date Created Issued Type Format Extent Medium Identifier Source Language Relation isVersionOf; hasVersion; isReplacedBy;replaces; isRequiredBy; requires; isPartOf; hasPart; isReferencedBy;references; isFormatOf; hasFormat; conformsTo Coverage Spatial Temporal Rights Provenance (dcterms) Elementy DC: rekomendowane ; zalecane ; dodatkowe

22 Europeana Semantic Elements (ESE) 2. Elementy Europeana
Language – język kraju dostawcy obiektu Country – kraj dostawcy treści Provider – dostawca obiektu Year – rok związany z obiektem (Time Line) Type – typ obiektu (wg Europeana: Text, Image, Video, Sound) HasObject – czy jest dostępna „miniaturka” Object – link do „miniaturki” Unstored – wszystko czego nie udało się przemapować Usertag – tagi użytkowników URI – unikalny identyfikator obiektu isShownAt – link do obiektu w pełnym kontekście informacji isShownBy – link do obiektu w najlepszej jakości Zasadniczo wartości do tych elementów nie są pobierane bezpośrednio z metadanych danego obiektu, ale powinny być dostarczone przez contentProvider-a do biura Europeany, które tworzy tzw. Kartotekę dostwaców treści i z niej czerpie niezbedne dane

23 Metadane w polskich bibliotekach cyfrowych
„Cyfrowość bibliotek i archiwów”. Warszawa, listopada 2009

24 Joanna Potęga Biblioteka Narodowa
Dziękuję za uwagę Joanna Potęga Biblioteka Narodowa „Cyfrowość bibliotek i archiwów”. Warszawa, listopada 2009


Pobierz ppt "Metadane w polskich bibliotekach cyfrowych"

Podobne prezentacje


Reklamy Google