Elektroniczne Archiwum Wieczyste J.P. Walczak, ATM SA K. Marasek, PJWSTK
Plan prezentacji Potrzeby archiwizacyjne Zarys rozwiązania Propozycja ram organizacyjnych Harmonogram i wnioski J.P. Walczak, K. Marasek
Co to są archiwa wieczyste? Zasoby archiwalne – wytwory kultury materialnej – artefakty, dokumenty, rejestry, … – dane cyfrowe (wytworzone komputerowo) Cyfryzacja – Zapis własności zasobu archiwalnego – separacja informacji od jej materialnego nośnika i jego zmiennych właściwości Zapis w postaci pliku cyfrowego Przechowywanie danych cyfrowych w perspektywie co najmniej 100 lat
Aktualny stan wiedzy Nie udało nam się znaleźć materiałów proponujących całościowe rozwiązanie problemu przechowywania wieczystego danych Inicjatywy (zwykle zawężone do potrzeb specjalnej grupy odbiorców) lub bardzo ogólne – SNIA (Storage Networking Industry Association) 100 Yr Archive Task Force – zbiór dobrych praktyk – NARA (National Archive and Records Administration), Sedona Conference – zasady migracji danych – OAIS (Open Archival Information System) ISO data reference model – Dublin Core Metadata Set, Pittsburgh Metadata, ICA Guide for Managing, DLM Forum Guide, ISAD(G), UBC-MAS Project, ISO – formaty danych i metadanych Brak konkretnych propozycji rozwiązań, ale jest rosnąca świadomość problemu
Ilości danych źródło: How much information 2003, UCLA, Berkeley Storage Medium 2002 Terabytes Upper Estimate 2002 Terabytes Lower Estimate Upper Estimate Lower Estimate % Change Upper Estimates Paper1, , % Film420,25476,69431,69058,209-3% Magnetic5,187,1303,416,2302,779,7602,073,76087% Optical % TOTAL:5,609,1213,416,2813,212,7312,132, % Worldwide production of original information, if stored digitally, in terabytes circa Upper estimates assume information is digitally scanned, lower estimates assume digital content has been compressed.
Ilości danych 2 National Archive and Records Administration W jaki sposób przechowywać w sposób trwały takie ilości danych Migracja danych z nośnika na nośnik, rekomendacje NARA – raz na 3 lata w przypadku dysków – raz na 5 lat w przypadku taśm Jak to robić w przypadku takich ilości danych? Ile to może kosztować? Nadchodzi kryzys archiwów cyfrowych (SNIA white paper, 2007)
Świadomość potrzeb
Przechowywanie wieczyste jest złożonym zagadnieniem Wyzwania technologiczne – Harvesting źródeł danych – Zapewnienie odczytu fizycznego – Zapewnienie odczytu logicznego – Migracja wielkich repozytoriów danych – Emulacja formatów – Zapewnienie działania historycznych aplikacji i czytników – Ochrona przed zmianami – Ochrona przed utratą lub zniszczeniem – Bezpieczeństwo fizyczne i logiczne danych – Automatyzacja dostępu – Wyszukiwanie i udostępnianie – Testowanie/audyt Wyzwania organizacyjne – Wspólne ustalenie wymagań – Ramy prawne działań – Klasyfikacja danych – Zapewnienie odpowiednich metadanych – Działania standardyzujące
Projekty stowarzyszone Podstawowe problemy do rozwiązania Długookresowa opieka nad zasobem archiwalnym (wieczystość zapisu) Redukcja zapotrzebowania energetycznego Organizacja dostępu do archiwum wieczystego Cyfryzacja zasobów archiwalnych Danych analogowych Zmiana formatu danych cyfrowych Zagadnienia prawne i organizacyjne
Podstawowe elementy proponowanego systemu Dane dostępne są na żądanie, ale nie on-line Dane przechowyewane są w „inteligentnych” zasobnikach Archiwum ma budowę strukturalną Archiwum realizuje swoje funkcje poprzez wyspecjalizowane podsystemy
Zasobnik Lokalna regeneracja zapisu regeneracja migracja Redundancja danych lokalna holistyczna Optymalizacja zasilania aktywność tylko gdy potrzeba
Zasobnik 2 Lokalna regeneracja zapisu regeneracja migracja Redundancja danych lokalna holistyczna Optymalizacja zasilania aktywność tylko gdy potrzeba Rozwiązanie problemu trwałości zapisu danych Rozwiązanie problemu migracji danych Rozwiązanie problemu efektywności energetycznej
Podstawowe obiekty archiwum Wewnętrzna część archiwum Zasobnik Elektroniczna kartoteka oraz Witryna udostępniająca Elektroniczna kartoteka oraz Witryna udostępniająca Zespół przygotowania treści do ich składowania w Archiwum Podsystem administracji Archiwum Zewnętrzny podsystem realizacji usług specjalnych Podsystem komunikacji pomiędzy Zasobnikiem a jego otoczeniem Podsystem zoptymalizowanego i adresowanego zasilania oraz kontroli stanu aktywności Zasobnika
Dostęp do zasobów Uaktywnianie na żądanie Struktura adresowania zasobnika Integralnie związane z zasobem Ustalające prawa dostępu Powiązane z kartotekami Dowiązane do treści dynamiczne metadane Kartoteki tematyczne Kartoteki o wybranym formacie Elektroniczna kartoteka Realizacja zleceń Witryna udostępniająca
Bazowa konfiguracja systemu
Problemy cyfryzacji Kodowanie bezstratne – Lepsze wykorzystanie bitów i bajtów Metody statystyczne Modelowanie danych – mniejsza kompresja, ale brak utraty jakości Kodowanie stratne – Kodowanie perceptualne wykorzystuje ograniczenia ludzkich zmysłów – Zorientowane na potrzeby transmisji danych Maksymalne upakowanie Szybkość kompresji Kody kontrolne – Mniejsza zajętość pamięci kosztem jakości JPEG
Problemy cyfryzacji cd. Cyfryzacja zapisów analogowychRedukcja danych nadmiarowychSzyfrowanie danych i metadaneSzybkość kodowania i dekodowaniaKody kontrolne
Kodowanie na potrzeby przechowywania wieczystego Dane archiwalne wymagają kompresji maksymalnie bezstratnej Konieczne jest opracowanie nowej klasy kodeków archiwizacyjnych Maksymalna wierność Kody kontrolne Prędkość i upakowanie mniej istotne Zachowanie odpowiedniej staranności i procedur przy cyfryzacji zbiorów archiwalnych
Propozycja ram organizacyjnych Rozbicie zagadnienia na projekt główny i stowarzyszone Projekt celowy zgłoszony przez konsorcjum zamawiające i konsorcjum wykonujące Koordynator konsorcjum zamawiającego rozlicza pracę Projekty badawcze Projekty badawczo-rozwojowe (np. „Patefon” zgłoszenie konkurs MNiSW) Patronat instytucji normującej (np. KRRiTV) B+R Model Wdrożenie Eksploatacja
Harmonogram Grudzień 2007: seminarium w KRRiTV Luty 2008: wniosek do MNiSW o projekt celowy Maj 2008: wnioski do MNISW o projekty rozwojowe stowarzyszone z projektem Czerwiec 2008: początek realizacji
Podsumowanie Proponujemy poważny i nowatorski projekt ujmujący całość nowej klasy zagadnień: archiwów wieczystych Szczególnie interesujące i nowatorskie elementy prezentowanego podejścia to: – mechanizmy samokontroli urządzeń zapewniające regenerację zapisu danych (automatyzacja opieki nad zgromadzonymi zasobami); – efektywne energetycznie rozwiązania przechowywania danych; – rozdzielenie funkcji wewnętrznych i zewnętrznych archiwum; – zintegrowane zarządzanie zasobami archiwalnymi i meta-danymi; – skalowalność rozwiązań, zarówno w aspekcie pojemności archiwum jak i zarządzania zasobami.