SYSTEM ZARZĄDZANIA DANYMI PCSS 2003/2004 START
Plan prezentacji Projekt badawczo-wdrożeniowy PROGRESS Funkcjonalność SZD Architektura systemu Metadane w SZD Technologie Podsumowanie
PROGRESS - Parametry sieci PIONIER Środowisko zaawansowanej infrastruktury sieciowo- obliczeniowej w sieci PIONIER (1-10 Gb/s) Instalacja pilotowa 80-procesorowy klaster: 3*SUN Fire 6800, 2*SUN Fire V880 Macierze dyskowe: 1,3 TB Oprogramowanie: ORACLE, iPlanet, Globus, Cluster Tools, SGE Rozwój narzędzi wspomagających architekturę gridowo- portalową Rozwój modułów zarządzania danymi i wizualizacji Weryfikacja poprzez aplikacje bioinformatyczne Udostępnienie środowiska gridowo-portalowego innym zaawansowanym aplikacjom (PIONIER)
PROGRESS Realizacja prac b+r: Wdrożenie: Partnerzy: SUN Microsystems PCSS/IChB Cyfronet Kraków Politechnika Łódzka
Podstawowe zadania SZD Przechowywanie i udostępnianie danych w środowisku gridowym Elastyczny dostęp do danych składowanych wewnątrz systemu Interfejs dostępu w technologii WebServices Wsparcie dla najpopularniejszych protokołów transmisji Składowanie danych na różnych typach medium Otwartość na standardy gridowe Wsparcie dla protokołów gridowych Zdefiniowanie interfejsów w standardzie OGSI/OGSA Poziom bezpieczeństwa wymagany dla aplikacji typu DataGRID Wysoki poziom niezawodności Ochrona danych przed awarią Minimalizacja czasu niedostępności systemu podczas awarii Udostępnienie środowiska przechowywania danych innym zaawansowanym aplikacjom
Funkcjonalność SZD Wirtualny system operacyjny przechowujące dane w postaci struktury drzewiastej Podstawowe elementy struktury SZD Metakatalog (Metadirectory lub Directory) Metaplik (Metafile lub Element) Kontener (Container) Dowiązanie (Link) Ukrycie przed użytkownikiem końcowym fizycznego umiejscowienia danych Replikacja danych na wielu węzłach systemu gridowego
Funkcjonalność SZD Dostępność poprzez protokoły HTTP, FTP, GridFTP, GASS, secureGASS Niezależność aplikacji od sprzętu (język Java) Interfejs dostępu do danych zgromadzonych przez system SRS
Funkcjonalność SZD
PROGRESS Overview PORTAL Presentation Module GRID Broker Data Management SUN Servers Functional Module
Struktura Logiczna SZD Zarządzanie Metadanymi (Repozytorium) BrokerDanych Przechowywanie Danych Mirror, Proxy, SRS Portal Administracyjny
Architektura SZD Data Broker Data Storage Storage Read-Only Metadata Management SRS Clients Portal GMS SOAP FTP, HTTP SOAP RAD RMI GASS, GridFTP SOAP
Rozproszona architektura SZD
Broker danych Asynchroniczne przyjmowanie żądań klientów, co nie powoduje blokowania dostępu do usług dla innych klientów, Realizacja polityki bezpieczeństwa na poziomie dostępu do elementów repozytorium (dostęp do plików, katalogów), Przekazywanie żądań klientów do repozytorium meta- danych, Odebranie i wysłanie wyników do klienta. Występuje w systemie w n instancjach
Repozytorium Centralny element systemu SZD. Przechowuje następujące rodzaje informacji: metadane o zasobach: pliki danych, fizyczne umiejscowienie danych, sposób dostępu do danych, metadane o uprawnieniach: wszelkie informacje związane z uprawnieniami jak użytkownicy, grupy, prawa dostępu. metadane dotyczące standardów opisu plików, np. Dublin Core (DC) Dostęp do zasobów repozytorium realizowany poprzez moduł Zarządzania Metadanymi Występuje w systemie w jednej instancji
Usługi repozytorium Repozytorium udostępnia poprzez moduł brokera danych następujące rodzaje usług usługi katalogowe - metadane opisujące zasoby zorganizowane w strukturę drzewiastą, podobną do struktury katalogowej systemów operacyjnych. Struktura ta składa się z katalogów, zwanych na potrzeby SZD metakatalogami. usługi plikowe – pliki (przechowywane w repozytorium jako metapliki) umieszczone są w metakatalogach. Podstawowym zadaniem repozytorium jest jednoznaczne odwzorowanie pomiędzy metaplikiem, a jego instancją fizyczną umieszczoną na kontenerze danych. SZD zapewnia w ten sposób możliwość replikacji plików, która jest niewidoczna dla użytkownika końcowego. usługi związane z bezpieczeństwem – W celu autoryzacji użytkownika w SZD zaimplementowano moduł, który na podstawie informacji z metadanych określa czy użytkownik końcowy jest uprawniony do operacji na danym zasobie.
Moduł przechowywania danych Moduł odpowiedzialny za zarządzanie fizycznymi instancjami plików oraz realizowanie usług dostępu do danych Zaprojektowany w postaci uniwersalnego kontenera przechowującej dane na różnych typach medium – plikach systemu operacyjnego, obiektach bazy danych i plikach systemów archiwizujących. Moduł może występować w wielu instancjach w SZD zapewnienie ciągłej dostępności danych w systemie w wypadku awarii połączeń sieciowych lub awarii systemów, na których uruchomione są moduły przechowywania danych Zapewnienie wyboru optymalnego modułu w połączeniu z klientem systemu.
Metadane Każdy element w repozytorium SZD może zostać opisany za pomocą metadanych Możliwość definiowania schematów metadanych przez użytkowników SZD Wsparcie dla wielojęzykowości Podstawowe funkcje realizowane przez SZD Pobieranie informacji o zdefiniowanych schematach meta-danych Dodawanie i modyfikacja meta-danych Opisywanie dowolnych obiektów za pomocą meta-danych Wyszukiwanie informacji
Technologie Implementacja systemu w języku Java Interfejs dostępu do zasobów SZD w technologii WebServices (protokół komunikacyjny SOAP) Apache SOAP Serwer aplikacji zapewniający komunikację po protokole HTTP – Jetty ( JDBC oraz Oracle