Dygitalizacja i biblioteki cyfrowe Typologia sprzętu Oprogramowanie do zarządzania repozytoriami cyfrowymi dLibra Budowa biblioteki cyfrowej Przykłady polskich bibliotek cyfrowych
Rozwój technologii pozyskiwania obrazów cyfrowych Fotografia analogowa Camera obscura Aparat Kodak (1888) Elektroniczne elementy swiatłoczułe Matryca CCD (ang. Charge Coupled Device) 1969 – Willard Boyle i George Smith 8 pikseli ułożonych w jednym rzędzie
Matryca CCD Elektroniczne elementy światłoczułe Matryca CCD (ang. Charge Coupled Device) Wynaleziona w 1969 przez Willarda Boyle’a i Georga Smith’a (8 pikseli ułożonych w jednym rzędzie) Krzemowa płytka zbudowana z elementów światłoczułych, Działa jako detektor wyłapujący i rejestrujący światło, Jest podzielona na niezależne elementy o rozmiarach kilkudziesięciu mikrometrów kwadratowych Zachodzą w niej zjawiska fotoelektryczne Rejestrowane sygnały przekazywane są do przetwornika analogowo-cyfrowego
Willard Boyle i George Smith w Bell Labs
Matryca CCD
Schemat matrycy CCD
Skaner Źródło światła, Układ optyczny, Element światłoczuły, Przetwornik analogowo-cyfrowy Układ przetwarzania obrazu Bydgoszcz, 2012
Obrazy cyfrowe Obrazy cyfrowe (ang. digital images) są elektroniczną reprezentacją obrazów postrzeganych przez człowieka. Są uzyskiwane za pomocą cyfrowego aparatu fotograficznego lub cyfrowej kamery albo w wyniku skanowania istniejących dokumentów takich jak: fotografie, manuskrypty, książki czy sztuka rysunkowa. Bydgoszcz, 2012
Rozdzielczość 1 Rozdzielczość - zdolność do rozpoznawania małych przestrzennych detali. Termin określa jakość obrazu cyfrowego i potencjał skanerów. DPI – „punkt (kropka) na cal”. W rzeczywistości dotyczy punktów, które drukarka może wydrukować na papierze. PPI – „piksel (lub punkt) na cal”. Określa parametry matrycy CCD, które są wyrażone w możliwości podzielenia 1 cala obrazu (2,54 cm) na określoną liczbę elementów. np. rozdzielczość 600 dpi to podział 1 cala na 600 elementów
Rozdzielczość 2 Rozdzielczość optyczna - oznacza rzeczywistą liczbę elementów światłoczułych na jednostkę długości. Rozdzielczość interpolowana – to sztucznie podniesiona rozdzielczość. Powstaje dzięki zastosowaniu oprogramowania skanera, które na podstawie rozdzielczości optycznej tworzy dodatkowe piksele poprzez uśrednienie wartości i wstawienie ich pomiędzy skanowane piksele. Taki zabieg nie podnosi jakości obrazu.
Rozdzielczość 3 Rozmiar pikseli a rozdzielczość obrazu rozdzielczość obrazu = rozmiar skanowanego dokumentu x jednostka dpi np. dla obiektu o rozmiarach 8 x 10 cali rozdzielczość obrazu wynosi 2400 x 3000 przy rozdzielczości skanera 300 dpi z równania: 8 cali x 300 dpi x 10 cali x 300 dpi
Głębia bitowa Głębia bitowa i rozdzielczość kolorów Głębia bitowa określa liczbę bitów definiujących każdy piksel. Im większa głębia bitowa skanera tym więcej kolorów może on odczytać z każdego rejestrowanego piksela. 1 bit – biel i czerń 4 bity – 16 tonów szarości lub barw 8 bitów – 256 tonów szarości lub kolorów 24 bity – 16,8 milionów kolorów
Sprzęt do dygitalizacji Systematyka sprzętu: Ze względu na mechanizm działania wyróżniamy: skanery płaskie (stołowe/biurkowe) skanery planetarne skanery przelotowe skanery bębnowe aparaty cyfrowe aparaty skanujące skanery do mikroform skanery automatyczne urządzenia hybrydowe (skan + mikrofilm)
Sprzęt do dygitalizacji
Sprzęt do dygitalizacji Systematyka sprzętu: Skanery planetarne Należą do grupy skanerów specjalistycznych. Głowica skanująca i oświetlacz zawieszone są na nieruchomym ramieniu nad stołem (ok 1 m), na którym umieszcza się skanowany obiekt. Dostępne są różne typy stołów m.in.: szalkowy oraz kołyskowy. Możliwe jest skanowanie obiektów do formatu A0. Zalety urządzeń tego typu to zastosowanie zimnego światła (fluorescencyjnego lub diodowego) oraz możliwość dostosowania parametrów stołu do potrzeb wynikających z rodzaju skanowanego materiału, szybkość skanowania. Wady do przede wszystkim cena (od 100 tys. do 300 tys. zł), większe wymagania wobec skanującego personelu, wrażliwość na zakłócenia zewnętrznego oświetlenia.
Przykłady skanerów planetarnych Zeutschel Omniscan 1400 A0 Minolta PS5000C Rozdzielczość: do 600 dpi Maks. Obszar skanowania: A0 Wydajność: 16,8 sek./str. dla 400 dpi Rozdzielczość: do 600 dpi Maks. Obszar skanowania: A3+ Wydajność: 6 sek./str.
Sprzęt do dygitalizacji Systematyka sprzętu: Skanery automatyczne Istotą automatyzacji procesu skanowania są następujące funkcje: automatyczne pobieranie kolejnych obiektów lub ich elementów (przekładanie stron, pobieranie arkuszy z podajnika, przesuwanie filmu na kolejne klatki mikrofilmu) . automatyczny dobór obszaru skanowania automatyczny dobór parametrów skanowania Za skanery automatyczne uzanć można skanery dowolnego typu, który jest wyposażony w powyższe funkcje (np.: skaner płaski z podajnikiem arkuszy, skaner planetarny z automatycznym przewracaniem kart książki, skaner przelotowy, itp.) Do głównych zalet tego typu skanerów należy szybkość skanowania (3000 str na godz.) oraz zmniejszenie pracy operatora. Do wad należy głównie wysoka cena (kilkaset tysięcy zł.), ograniczenie do wybranych typów obiektów, niebezpieczeństwo zniszczenia materiału, wrażliwość na niejednorodność materiałów, formatu i stanu zachowania obiektów.
Przykłady skanerów automatycznych Kiras Technologies Kabis III Qidenus – Robotic Book Scanner Pro
Metody dygitalizacji ze względu na wybraną technikę dzielimy na: ręczne przenoszenie tekstu do pamięci komputera zwykłe skanowanie skanowanie z zastosowaniem programów rozpoznawania pisma (OCR) zastosowanie cyfrowych aparatów fotograficznych i kamer cyfrowych skanowanie automatyczne bezpieczeństwo (dokładana analiza obiektów) koszty (dokładna analiza relacji kosztów sprzętu do kosztów obsługi oraz ewentualnych strat) szybkość i wydajność automatów skanowanie ręczne M. Kowalska D. Parandowski
Metody dygitalizacji Metody dygitalizacji: Ze względu na podmiot realizaujący dygitalizację wyróżniamy : dygitalizacja samodzielna outsorcing – wykorzystanie zasobów zewnętrznych, polegające na zleceniu wyspecjalizowanym podmiotom zewnętrznym realizacji określonych procesów niezbędnych dla funkcjonowania danego przedsiębiorstwa, które zostaną zrealizowane efektywniej niż byłoby to możliwe we własnej zakresie. Etapy wdrażania outsorcingu (wybór firmy/przetarg, kontrakt, szkolenia, kontrola)
Metody dygitalizacji Metody dygitalizacji: Ze względu na sposób doboru materiału wyróżniamy : dygitalizacja selektywna – wybór pojedynczych obiektów, wyselekcjonowanych zgodnie z określonymi w planie dygitalizacji kryteriami i wytycznymi, które opracowano na podstawie metadanych lub z autopsji dygitalizacja masowa – zespół metod to zastosowanych w celu zdygitalizowania zbioru obiektów przy eliminacji lub ograniczeniu analizy zawartości tego zbioru
dLIBRA Oprogramowanie do zarządzania repozytoriami cyfrowymi
Historia projektu 1 Prace nad projektem rozpoczęły się w 1996, były prowadzone przez Poznańskie Centrum Superkomputerowo-Sieciowe Pierwszy prototyp powstał w 1998 dLibra w 2000 roku
Historia projektu 2 W 2001 oprogramowanie dLibra rozwijane było jako jeden z projektów w obszarze e-content programu PIONIER (Polski Internet Optyczny - Zaawansowane Aplikacje, Usługi i Technologie dla Społeczeństwa Informacyjnego) W 2002 na mocy współpracy z Poznańską Fundacją Bibliotek Naukowych uruchomiono Wielkopolską Bibliotekę Cyfrową WBC 2002-2004 Katedra Informacji Naukowej i Bibliologii, UKW w Bydgoszczy
Historia projektu 3 Kolejne wdrożenia: 2004 roku na Politechnice Wrocławskiej uruchomiona została Biblioteka Cyfrowa Politechniki Wrocławskiej, (od 2005 - Dolnośląska Biblioteka Cyfrowa) 2005 – Kujawsko-pomorska Biblioteka Cyfrowa (sfinansowana częściowo z funduszy UE Listę uzupełnią instalacje niedostępne publicznie. (Akademia Obrony Narodowej, Urząd Miasta Torunia, Instytut Pamięci Narodowej - Komisja Ścigania Zbrodni przeciwko Narodowi Polskiemu - Oddział w Poznaniu)
Historia projektu 4 Stan obecny: 14.02.2014 – najnowsza wersja - dLibra 5.7.2 dLibra jest najczęściej wybieranym oprogramowaniem do budowy bibliotek cyfrowych w Polsce. Ponad 75% bibliotek cyfrowych działa przy wykorzystaniu dLibry. Razem biblioteki te udostępniają aż 97% dostępnych w Internecie cyfrowych zasobów polskiego dziedzictwa kulturowego. Łączna liczba wdrożeń obejmuje ok. 150 różnego typu projektów. Koszt licencji – 1200 zł
Przeznaczenie oprogramowania dLibra Oprogramowanie dLibra służy do budowy profesjonalnych repozytoriów obiektów cyfrowych. Repozytoria oparte o oprogramowanie dLibra mogą pełnić rolę systemów takich jak: biblioteki cyfrowe, instytucjonalne repozytoria dokumentów, cyfrowe archiwa.
Struktura oprogramowania dLibra Serwer biblioteki cyfrowej – odpowiada za realizację wszystkich funkcji biblioteki, uruchomiony na dedykowanym komputerze (lub kilku komputerach), pozostaje niedostępny bezpośrednio dla użytkowników. Aplikacja redaktora i administratora - pozwala użytkownikom tworzącym repozytorium cyfrowe (wprowadzającym obiekty cyfrowe, tworzącym opisującym itp.) oraz administratorom na korzystanie z funkcji repozytorium. Aplikacja czytelnika - dostępna poprzez strony WWW, pozwala użytkownikom („czytelnikom”) korzystać z zasobów zgromadzonych w repozytorium cyfrowym.
Schemat struktury oprogramowania dLibra źródło: http://dlibra.psnc.pl
Budowa biblioteki cyfrowej (1) Formaty zapisu plików graficznych Formaty opisu obiektów cyfrowych
Formaty zapisu plików graficznych TIFF JPEG PDF DjVu
TIFF TIFF (ang. Tagged Image File Format) popularny format plików graficznych udostępniający wiele rodzajów kompresji (zarówno stratnej jak i bezstratnej), umożliwia przechowywanie kanału alfa – przezroczystego obszaru grafiki 24 bitowa głębia kolorów zapis dokumentów wielostronicowych rozszerzenia plików: .tif oraz .tiff
JPEG JPEG (ang. Joint Photographic Experts Group) niewątpliwie najpopularniejszy format plików graficznych z kompresją stratną regulowaną jest powszechnie używany zarówno w sieci internet (obsługiwany przez prawie wszystkie przeglądarki), jak i w aparatach cyfrowych zapewnia niewielka objętość plików graficznych obsługuje pełną paletę kolorów obsługuje tryb progresywny i hierarchiczny kompresji rozszerzenia plików: .jpg, .jpeg
PDF PDF (ang. Portable Document Format) format pliku opracowany i promowany przez firmę Adobe Systems (1993) od 2008 jest formatem otwartym (ISO 32000) dokument może zawierać hipertekst umożliwia szyfrowanie plików plik wygląda identycznie na każdym komputerze
DjVu DjVu stworzony dla potrzeb skanowanych dokumentów mała objętość pliku (5-100 razy mniejsze od PDF) odrębna digitalizacja i kompresja każdej warstwy obrazu dokumenty w tym formacie posiadają warstwę tekstową. Możliwe przeszukiwanie pełnotekstowe zapis dokumentów wielostronicowych obsługuje tryb progresywny
Formaty opisu obiektów cyfrowych Metadane Są ustrukturowanymi danymi, zawierającymi charakterystyki dokumentów będących nośnikami informacji. Metadane To zwięzły i systematyczny zestaw informacji odsyłającej, który może być użyty do efektywnego i trafnego wyszukiwania większych zestawów informacji „Dane o danych” lub „informacja o informacji”, ich przykładem są klasyczne katalogi biblioteczne.
Formaty opisu obiektów cyfrowych Funkcje metadanych wyszukiwanie i zarządzanie informacjami skrótowy opis źródła zabezpieczenie dostępu instrukcja interpretacji danych informacja o sposobie użycia danych informacja o historii danych informacja o właścicielu wskazanie relacji z innymi źródłami
Formaty opisu obiektów cyfrowych Rodzaje metadanych metadane strukturalne - definiują w jaki sposób są zorganizowane złożone obiekty cyfrowe, metadane administracyjne - informacje pozwalające na zarządzanie obiektem, takie jak prawa dostępu do obiektu, format cyfrowy plików wchodzących w skład obiektu, metadane opisowe - opisują obiekt by możliwe było jego odnalezienie czy identyfikacja. Mogą zawierać takie informacje jak autor, tytuł, itp.
Formaty opisu obiektów cyfrowych Dublin Core otwarty, wymienny standard metadanych do opisu zasobów internetowych, rozwijany jest przez Dublin Core Metadata Initiative Dublin Core Metadata Element Set (DCMES), ten podstawowy 15-elementowy zestaw metadanych, opracowany został w 1995 roku na warsztatach organizowanych przez OCLC i NCSA w Dublinie (Ohio, USA), Każdy element Dublin Core jest zdefiniowany przy użyciu zestawu dziesięciu atrybutów (np. nazwa, identyfikator, wersja, definicja, komentarz, itp.)
Formaty opisu obiektów cyfrowych Elementy Dublin Core 1. Title (Tytuł) nazwa nadana źródłu 2. Creator (Twórca) Jednostka głównie odpowiedzialna za stworzenie treści źródła 3. Subject and Keywords (Opis rzeczowy) Temat treści źródła 4. Description (Opis) Wyliczenie zawartości treści źródła 5. Publisher (Wydawca) Jednostka odpowiedzialna za udostępnienie źródła 6. Contributor (Współtwórca) Jednostka odpowiedzialna za współudział w tworzeniu treści źródła 7. Date (Data) Data związana z wydarzeniem w okresie istnienia źródła 8. Resource Type (Typ zasobu) Natura lub kategoria treści źródła 9. Format (Format) Fizyczna lub cyfrowa materializacja źródła 10. Resource Identifier (Identyfikator zasobu) – Jednoznaczny odnośnik do źródła w obrębie danego kontekstu 11. Source (Źródło) Odesłanie do pierwotnego źródła, z którego pochodzi opisywane źródło 12. Language (Język) Język treści intelektualnych źródła 13. Relation (Relacja) Odesłanie do źródła pozostającego w relacji z tym opisywanym 14. Coverage (Miejsce i czas) Zasięg treści źródła 15. Rights Management (Prawa własności) Informacja o prawach własności do źródła Dublin Core Metadata Element Set, Version 1.1: Reference Description w tłumaczeniu Marka Nahotki: http://ebib.oss.wroc.pl/standard/dc.html