Elektroniczne Archiwum Wieczyste J.P. Walczak, ATM SA K. Marasek, PJWSTK
Plan prezentacji Potrzeby archiwizacyjne Zarys rozwiązania Propozycja ram organizacyjnych Harmonogram i wnioski J.P. Walczak, K. Marasek
Co to są archiwa wieczyste? Zasoby archiwalne – wytwory kultury materialnej – artefakty, dokumenty, rejestry, … – dane cyfrowe (wytworzone komputerowo) Cyfryzacja – Zapis własności zasobu archiwalnego – separacja informacji od jej materialnego nośnika i jego zmiennych właściwości Zapis w postaci pliku cyfrowego Przechowywanie danych cyfrowych w perspektywie co najmniej 100 lat
Projekty stowarzyszone Problemy do rozwiązania Długookresowa opieka nad zasobem archiwalnym (wieczystość zapisu) Redukcja zapotrzebowania energetycznego Organizacja dostępu do archiwum wieczystego Cyfryzacja zasobów archiwalnych Danych analogowych Zmiana formatu danych cyfrowych Zagadnienia prawne i organizacyjne
Ilości danych źródło: How much information 2003, UCLA, Berkeley Storage Medium 2002 Terabytes Upper Estimate 2002 Terabytes Lower Estimate Upper Estimate Lower Estimate % Change Upper Estimates Paper1, , % Film420,25476,69431,69058,209-3% Magnetic5,187,1303,416,2302,779,7602,073,76087% Optical % TOTAL:5,609,1213,416,2813,212,7312,132, % Worldwide production of original information, if stored digitally, in terabytes circa Upper estimates assume information is digitally scanned, lower estimates assume digital content has been compressed.
Zużycie energii HDD źródło:
Projekcja ilości danych produkowanych w kolejnych latach
Projekcja mocy zasilania HDD potrzebnego do zapamiętania produkcji z danego roku dyski 500 GB
Zasobnik Lokalna regeneracja zapisu Regeneracja migracja Redundancja danych Lokalna holistyczna Optymalizacja zasilania Aktywność tylko gdy potrzeba
Podstawowe obiekty archiwum Wewnętrzna część archiwum Zasobnik Elektroniczna kartoteka oraz Witryna udostępniająca Elektroniczna kartoteka oraz Witryna udostępniająca Zespół przygotowania treści do ich składowania w Archiwum Podsystem administracji Archiwum Zewnętrzny podsystem realizacji usług specjalnych Podsystem komunikacji pomiędzy Zasobnikiem a jego otoczeniem Podsystem zoptymalizowanego i adresowanego zasilania oraz kontroli stanu aktywności Zasobnika
Dostęp do zasobów Uaktywnianie na żądanie Struktura adresowania zasobnika Integralnie związane z zasobem Ustalające prawa dostępu Powiązane z kartotekami Dowiązane do treści dynamiczne metadane Kartoteki tematyczne Kartoteki o wybranym formacie Elektroniczna kartoteka Realizacja zleceń Witryna udostępniająca
Bazowa konfiguracja systemu
Problemy cyfryzacji Kodowanie bezstratne – Lepsze wykorzystanie bitów i bajtów Metody statystyczne Modelowanie danych – Większa zajętość pamięci brak utraty jakości Kodowanie stratne – Kodowanie perceptualne wykorzystuje ograniczenia ludzkich zmysłów – Zorientowane na potrzeby transmisji danych Maksymalne upakowanie Szybkość kompresji Kody kontrolne – Mniejsza zajętość pamięci kosztem jakości JPEG
Problemy cyfryzacji cd. Cyfryzacja zapisów analogowych Redukcja danych nadmiarowych Szyfrowanie danych i metadane Szybkość kodowania i dekodowania Kody kontrolne
Kodowanie na potrzeby przechowywania wieczystego Dane archiwalne wymagają kompresji maksymalnie bezstratnej Konieczne jest opracowanie nowej klasy kodeków archiwizacyjnych Maksymalna wierność Kody kontrolne Prędkość i upakowanie mniej istotne Zachowanie odpowiedniej staranności i procedur przy cyfryzacji zbiorów archiwalnych
Propozycja ram organizacyjnych Rozbicie zagadnienia na projekt główny i stowarzyszone Projekt celowy zgłoszony przez konsorcjum zamawiające i konsorcjum wykonujące Koordynator konsorcjum zamawiającego rozlicza pracę Projekty badawcze Projekty badawczo-rozwojowe (np. „Patefon” zgłoszenie konkurs MNiSW) Patronat instytucji normującej (np. KRRiTV) B+R Model Wdrożenie Eksploatacja
Harmonogram Grudzień 2007: seminarium w KRRiTV Luty 2008: wniosek do MNiSW o projekt celowy Maj 2008: wnioski do MNISW o projekty rozwojowe stowarzyszone z projektem Czerwiec 2008: początek realizacji
Podsumowanie Proponujemy poważny i nowatorski projekt ujmujący całość nowej klasy zagadnień: archiwów wieczystych Szczególnie interesujące i nowatorskie elementy prezentowanego podejścia to: – mechanizmy samokontroli urządzeń zapewniające regenerację zapisu danych (automatyzacja opieki nad zgromadzonymi zasobami); – efektywne energetycznie rozwiązania przechowywania danych; – rozdzielenie funkcji wewnętrznych i zewnętrznych archiwum; – zintegrowane zarządzanie zasobami archiwalnymi i meta-danymi; – skalowalność rozwiązań, zarówno w aspekcie pojemności archiwum jak i zarządzania zasobami.