Polska Infrastruktura Informatycznego Wspomagania Nauki w Europejskiej Przestrzeni Badawczej PL-Grid Virtual Laboratory Maciej Malawski, Eryk Ciepiela Katedra Informatyki ACK Cyfronet AGH CMUJ Kraków, 16 czerwiec 2010
Plan prezentacji Co to jest grid? Czym jest projekt PL-Grid idea i struktura PL-Grid dostępne i planowane zasoby dostępne oprogramowanie Jak zostać użytkownikiem System pomocy „Helpdesk PL-Grid” Wirtualne Laboratorium 2
Czym jest grid? Definicja – Vaidy Sunderam infrastruktura umożliwiająca współdzielenie, wybór czy gromadzenie geograficznie rozproszonych zasobów (komputerów, oprogramowania, (baz) danych czy ludzi) czyli uwspólnionymi (wirtualnie) zasobami zależnymi od ich dostępności, pojemności czy kosztów przeznaczonymi do rozwiązywania skomplikowanych problemów zgrupowanymi w ramach wirtualnych organizacji, jednoznacznie determinujących zasoby dostępne dla użytkownika 3
EGEE 4 Mariusz Sterzel CGW'08 Kraków, 13 October EGEE Archeology Astronomy Astrophysics Civil Protection Comp. Chemistry Earth Sciences Finance Fusion Geophysics High Energy Physics Life Sciences Multimedia Material Sciences … >250 sites 48 countries >150,000 CPUs >50 PetaBytes >15,000 users >150 VOs >200,000 jobs/day
Idea PL-Grid Idea PL-Grid Otwarta ogólnopolska infrastruktura gridowa wspierająca uprawianie nauki w sposób umożliwiający integrację danych doświadczalnych i wyników zaawansowanych symulacji komputerowych Dostarczanie polskiej społeczności naukowej usług informatycznych opartych na gridowych klastrach komputerowych, służących e-Nauce w różnych dziedzinach System skalowalny, pozwalający na dołączenie lokalnych klastrów komputerowych uczelni, instytutów badawczych czy „platform technologicznych” kompatybilny z gridem europejskim i światowym 5
Skład konsorcjum Akademickie Centrum Komputerowe CYFRONET AGH – koordynator Poznańskie Centrum Superkomputerowo-Sieciowe (PCSS) Wrocławskie Centrum Sieciowo – Superkomputerowe (WCSS) Centrum Informatyczne Trójmiejskiej Akademickiej Sieci Komputerowej (TASK) Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego (ICM) 6
Europejska Inicjatywa Gridowa EGI 7
Oferta PL-Grid Docelowy wzrost udostępnianej mocy obliczeniowej do ok. 215 TFLOPs (5000 procesorów 4-rdzeniowych) oraz pamięci dyskowej o ok TB Zestaw zaawansowanych narzędzi do organizacji eksperymentów obliczeniowych, który pomożemy dostosować do indywidualnych potrzeb Pomoc w zrozumieniu zagadnień związanych z uruchamianiem aplikacji naukowych na rozległych zasobach obliczeniowych Wsparcie technologiczne i informatyczne przy projektowaniu własnych aplikacji naukowych i ich wdrażaniu na infrastrukturze PL-Grid 8
Obecne zasoby Ponad 8000 rdzeni... Ponad 300 TB pamięci dyskowych... Możliwość integracji zasobów, aplikacji itp. w ramach Wirtualnego Laboratorium PL-Grid Szkolenia dla początkujących i zaawansowanych użytkowników platformy PL-Grid obejmujące również jej efektywne wykorzystywanie Obecnie upgrade: dodatkowe 5000 rdzeni kolejne zasoby dyskowe 9
Oprogramowaie Każda aplikacja środowiska Unix/Linux może być dostosowana do infrastruktury PL-Grid Oferujemy: Pakiety QM ADF, Gaussian, Turbomole, GAMESS, Molcas, Pakiety MD, MM NAMD, Amber (wkrótce) Pakiety do dokowania AutoDock Zestaw typowych narzędzi kompilatory, biblioteki numeryczne, MPI Czekamy na propozycje Państwa programów 10
Jak zostać użytkownikiem PL-Grid Osoba prowadza ̨ ca działalność naukowa ̨, zwia ̨ zana z jednostka ̨ naukowa ̨ w rozumieniu ustawy z dnia 8 października 2004r. o zasadach finansowania nauki. Współpracownicy osoby prowadza ̨ cej działalność naukowa ̨ (doktoranci, studenci, współpracownicy zagraniczni) Jak sie ̨ zarejestrować? Procedura w pełni on-line System rejestracji i zarza ̨ dzania kontem uz ̇ ytkownika PL-Grid Wymagany aktualny, własny wpis w bazie „Ludzie Nauki” OPI ba ̨ dź wpis opiekuna naukowego Weryfikacja zgłoszenia przez strone ̨ internetowa ̨ jednostki ba ̨ dź telefonicznie 11 Podziękowania: T. Szepieniec, M. Radecki Podziękowania: T. Szepieniec, M. Radecki
Co uzyskam dzięki rejestracji w PL-Grid Konto na maszynie doste ̨ powej User Interface w CYFRONECIE Doste ̨ p do zasobów PL-Grid gLite – doste ̨ p poprzez vo.plgrid.pl UNICORE (wkrótce) system kolejkowy obecnie klaster „Zeus” w CYFRONECIE kolejne klastry w najbliz ̇ szym czasie Pełny doste ̨ p do systemu pomocy „Helpdesk PL-Grid” Wnioskowanie o osobisty certyfikat X.509 i uzyskanie on-line (wkrótce) certyfikat honorowany w obre ̨ bie Polski Moz ̇ liwość rejestracji innego certyfikatu Dane o wykorzystaniu zasobów (wkrótce) Jedno konto, jedno hasło wsze ̨ dzie 12 Podziękowania: T. Szepieniec, M. Radecki Podziękowania: T. Szepieniec, M. Radecki
System pomocy „Helpdesk” PL-Grid Jeden punkt kontaktu do ekspertów od wszystkich aspektów działania infrastruktury PL-Grid Procedury zapewniaja ̨ ce przekazywanie spraw (np. w czasie urlopowym) Zgłoszenia nie gina ̨ i nie sa ̨ zapominane: uz ̇ ytkownik moz ̇ e zgłaszać i śledzić proces rozwia ̨ zywania problemu monitorowanie czasu rozwia ̨ zywania sprawy Zgłoszenia tworzone sa ̨ poprzez: interfejs graficzny (dla zarejestrowanych uz ̇ ytkowników) Uz ̇ ytkownik otrzymuje identyfikator zgłoszenia umoz ̇ liwiaja ̨ cy późniejsze śledzenie statusu sprawy Istotne powiadomienia o stanie problemu wysyłane sa ̨ em Zgłaszaja ̨ cemu 13 Podziękowania: T. Szepieniec, M. Radecki Podziękowania: T. Szepieniec, M. Radecki
14
Zapraszamy do rejestracji na: 15
GridSpace virtual laboratory integrates computational resources and relevant data to provide users with convenient, high-level tools for collaborative experiment planning and execution Experiment developer Scientist End User Experiment Planning Environment Experiment scenario Portal Virtual Laboratory runtime components (Required to select resources and execute experiment scenarios) Computational services (services (WS, WTS, WS-RF), components (MOCCA), jobs (EGEE, AHE)) Data services (DAS data sources, standalone databases) Grids, Clusters, Computers, Network Users Interfaces Runtime Services Infrastructure Application Specific Portlet GridSpace Virtual Laboratory (Version 1, ViroLab project)
Application Lifecycle
User Interfaces of Virtual Laboratory Experiment Management Interface Portal GWT, AJAX Experiment Planning Environment Eclipse RPC
Prediction of Ligand Binding Sites in ViroLab Many services are publicly available, but only via WWW or interface Automated in Virtual Laboratory using: HTTP communications wrapping Task queuing system for handling time-consuming service invocations Conversion to a common format Generating Jmol visualization scripts Services available as gems in the Virtual Laboratory Rich interface: Dynamically uploaded JMol-based viewer Automatic update of application using Experiment Repository Metasite under development
20 Outline Motivation – complex scientific applications on modern computing infrastructures In-silico experiments and Virtual Laboratory GridSpace2 as a solution Architecture Working with GridSpace Examples of applications Computational chemistry Bioinformatics Conclusions
21 Motivation Complex scientific applications on modern computing infrastructures Clusters, Grids, Clouds Diverse software packages Applications (Gaussian, NAMD,…) Web Services Scripts: Perl, Python, Ruby Different users Chemists, biologists Programmers End users Various data types Files, databases, URLs Exploratory programming Unstructured, dynamic, prototyping Collaboration Teams, communities
22 Experiment Experiment (in-silico)- a process that combines together data with a set of activities (programs, services) that act on that data in order to produce experiment results Experiment plan – a specific type of software Experiment run – a specific execution of the experiment Complex workflow going beyond manual simple and repeatable execution of installed programs Combines steps realized on a range of software environments, platforms, tools, languages etc. Developed, shared and reused collaboratively amongst ad-hoc researching teams Composed of collaboratively owned libraries and services used (called gems) and experiment parts (called snippets) Virtual Laboratory – environment for development, execution and sharing of experiments
23 Working with GridSpace2 Easy access using Web browser Experiment Workbench Constructing experiment plans from code snippets Interactively run experiments Experiment Execution Environment Multiple interpreters Access to libraries, programs and services (gems) Access to computing infrastructure Cluster, grid, cloud
24 Experiment Workbench
25 Binding sites in proteins Comparison of Services for Predicting Ligand Binding Sites Multiple services available on the Web Conversions between data formats Visualization scripts (Jmol, Gnuplot) Single access based on experiments developed in Virtual Laboratory Calculation of hydrophobicity profiles Multiple scales, parameters, input data Computed using PL-Grid resources – easy access to Zeus cluster at Cyfronet Management of experiment results: ~ 1 Million output files Using semantic integration framework for metadata management Collaboration with Department of Bioinformatics and Telemedicine, Jagiellonian University, Prof. Irena Roterman-Konieczna, Katarzyna Prymula
26 Analysis of water solutions of aminoacids Involving multiple steps realized with many tools, languages and libraries used for Packmol – molecular dynamics simulations of packing molecules in a defined regions of space Jmol – visualization of solution Gaussian – computing a spectrum of the solution Python/CCLIB – extracting spectrum info jqPlot – displaying plot Collaboration with computational chemists of ACC Cyfronet AGH and Department of Chemistry, Jagiellonian University, Dr. Mariusz Sterzel, Klemens Noga
27 Conclusions Complex scientific applications need dedicated tools and approaches. In-silico experiments are supported by Virtual Laboratory powered by GridSpace2 technology. Applications: Bioinformatics Computational chemistry More are welcome! Virtual laboratory is open for PL-Grid users.
28 References – open the Virtual Laboratory in your browser – learn more about GridSpace2 technology – see our earlier achievements – become a user of PL-Grid