1

1 e-mail: meyer@man.poznan.pl http://www.man.poznan.pl/

2 POZNAŃ SUPERCOMPUTING AND NETWORKING CENTER Plan wykładow / Laboratoria IOIO

3 POZNAŃ SUPERCOMPUTING AND NETWORKING CENTER Plan wykładow / Laboratoria IOIO

4 POZNAŃ SUPERCOMPUTING AND NETWORKING CENTER Wprowadzenie Środowisko: homogeniczne, heterogeniczne Środowisko: homogeniczne, heterogeniczne Zasoby Zasoby Klastry, metakomputer, GRID Klastry, metakomputer, GRID Systemy kolejkowe Systemy kolejkowe Globus, Legion Globus, Legion

5 POZNAŃ SUPERCOMPUTING AND NETWORKING CENTER Homogeniczne i heterogeniczne środowiska Środowisko homogeniczne: Środowisko homogeniczne: jednorodne jednorodne elementy składowe charakteryzują się tymi samymi elementy składowe charakteryzują się tymi samymi wartościami, cechami wartościami, cechami skalowalne skalowalne Środowisko heterogeniczne: Środowisko heterogeniczne: różnorodność elementów składowych różnorodność elementów składowych zróżnicowany zbiór parametrów, cech zróżnicowany zbiór parametrów, cech skalowalne skalowalne trudne w zarządzaniu trudne w zarządzaniu Różne systemy operacyjne Różne architektury Różni producenci

6 POZNAŃ SUPERCOMPUTING AND NETWORKING CENTER Zasoby procesor (cpu, rodzaj) procesor (cpu, rodzaj) częstotliwość (zróżnicowane płyty CPU), częstotliwość (zróżnicowane płyty CPU), typ, np. skalarny, wektorowy, graficzny typ, np. skalarny, wektorowy, graficzny RAM (typ, wielkość) RAM (typ, wielkość) we/wy we/wy interfejsy sieciowe, interfejsy sieciowe, dyski, dyski, graphics engines graphics engines pamięć masowa pamięć masowa pojedyncze systemy (węzły w sieci) pojedyncze systemy (węzły w sieci) specjalizowane systemy (obliczeniowe, graficzne, archiwizacji, etc.) specjalizowane systemy (obliczeniowe, graficzne, archiwizacji, etc.)

7 POZNAŃ SUPERCOMPUTING AND NETWORKING CENTER Poziomy zarządzania zasobami GRID Poziom systemu operacyjnego Specjalizowane moduły zarządzania zasobami (moduły powyżej systemu operacyjnego Zarządzanie w środowisku homogenicznym

8 POZNAŃ SUPERCOMPUTING AND NETWORKING CENTER Zapotrzebowanie na zasoby 1/2 Compute Visualize Data BIG Compute Problems Computing Visualization Data Handling BIG Visualization Problems Computing Visualization Data Handling BIG Data Problems Computing Visualization Data Handling

9 POZNAŃ SUPERCOMPUTING AND NETWORKING CENTER Zapotrzebowanie na zasoby 2/2 I/O Web serving Weather simulation CPU Storage Repository / archive Signal processing Media streaming Traditional big supercomputer Scale in Any and All Dimensions

10 C-brick CPU Module D-brick Disk Storage R-brick Router Interconnect X-brick XIO Expansion P-brick PCI Expansion I-brick Base I/O Module G-brick Graphics Expansion Stopień złożoności

11 POZNAŃ SUPERCOMPUTING AND NETWORKING CENTER Elementy zarządzania ZŁOŻONOŚĆ Partycjonowanie strojenie na poziomie systemu operacyjnego systemy wielozadaniowe systemy kolejkowe jeden lub wielu użytkowników

12 POZNAŃ SUPERCOMPUTING AND NETWORKING CENTER Klastry homogeniczne GigaRing, SuperCluster PowerChallengeArray PowerChallengeArray Zarządzanie dużymi ilościami danych Zarządzanie dużymi ilościami danych Systemy archiwizacji Systemy archiwizacji

GigaRing Channel The GigaRing channel architecture is a modification of Scalable Coherent Interface (SCI) specification and is designed to be the common channel that carries information between Input/Output Nodes (ION) This channel consists of a pair of 500 MB/s. channels configured as counter-rotating rings The two rings form a single logical channel with a maximum bandwidth of 1.0 GB/s. Protocol overhead lowers the channel rate to 920 MB/s. A client connects to the GigaRing channel through the ION via a 64- bit full-duplex interface Detection of lost packets and cyclic redundancy checksums Poznań Supercomputing and Networking Center

GigaRing Channel The counter rotating rings provide two forms of system resiliency: Ring folding Ring masking GigaRing Node Interface Poznań Supercomputing and Networking Center

Ring Folding The GigaRing channel can be software configured to map out one or more IONs from the system. Ring folding converts the counter- rotating rings to form a single ring The maximum channel bandwith for a folded ring is approximately 500 MB/s GigaRing Channel Poznań Supercomputing and Networking Center

Ring Masking Ring masking removes one of the counter-rotating rings from the system, which results in one fully connected, uniderectional ring The maximum channel bandwidth = 500 MB/s GigaRing Channel Poznań Supercomputing and Networking Center GigaRingChannel

Input/Output Nodes (ION) All devices that connect directly to the GigaRing channel are considered to be IONs There are three types of IONs : Single-purpose Node (SPN) Multipurpose node (MPN) Mainframe node Available mainframe nodes : GigaRing Channel Poznań Supercomputing and Networking Center Cray T3E Cray J90se Cray T90

GigaRing Channel Poznań Supercomputing and Networking Center

Massively Parallel Processing (MPP) Massively parallel approaches achieve high processing rates by assembling large numbers of relatively slow processors Traditional approaches focus on improving the speed of individual processors and assembly only a few of these powerfull processors for a complete machine Improving network speed and communication overheads Examples : –Thinking Machines (CM-2, CM-5) –Intel Paragon –Kendall Square (KS-1) –SGI Origin 2000 –Cray T3D, T3E Poznań Supercomputing and Networking Center

Some commonly used network topologies MPPs network topologies Poznań Supercomputing and Networking Center TopologyConnectivity

Cray T3E, T3D The Cray MPP system contains four types of components: processing element nodes, the interconnect network, I/O gateways and a clock Network topology: 3D Mesh Poznań Supercomputing and Networking Center Cray T3D System Components Interconnect Network Processing Element Node I/O Gateway

Processing Element Nodes (PE) Each PE contains a microprocessor, local memory and support circuitry 64-bit DEC Alpha RISC processor Very high scalability (8... 2048 CPUs) Cray T3E Poznań Supercomputing and Networking Center

Interconnect Network The interconnect network provides communication paths between PEs There is formed a three dimensional matrix of paths that connect the nodes in X, Y and Z dimensions communication linkA communication link transfers data and control information between two network routers, connects two nodes in one dimension. A communication link is actually two unidirectional channels. Each channel in the link contains data, control and acknowledge signals. Dimension order routing (predefined methods of information traveling) Fault tolerance Cray T3E Poznań Supercomputing and Networking Center

Distributed operating system (Unicos/microkernel) Unicos/mk does not require a common memory architecture. Unlike Unicos, the functions of Unicos/mk are devided between a microkernel and numerous servers. For this reason, Unicos/mk is referred to as a serverized operating system. Serverized operating systems offer a distinct advantage for the Cray T3E system because of its distributed memory architecture. Within these systems, the local memory of each PE is not required to hold the entire set of OS code The operating system can be distributed across the PEs in the whole system Under Unicos/mk, traditional UNICOS processes are implemented as actors. Actors represents a resource allocation entity. The microkernel views all user processes, servers and daemons as actors A multiple PE application has one actor per PE. User and daemon actors reside in user address space; server actors reside in supervisory (kernel address) space. Cray T3E Poznań Supercomputing and Networking Center

Distributed operating system (Unicos/mk) In the CRAY T3E systems, the local memory of each PE must contain a copy of the microkernel and one or more servers. Under Unicos/mk each PE is configured as one of the following types of PEs: Support PEs The local memory of support PEs contains a copy of the microkernel and servers. The exact number and type of servers vary depending on configuration tuning. User PEs The local memory of user PEs contains a copy of the microkernel and a minimum number of servers. Because it contains a limited amount of operating system code, most of a user PEs local memory is available to the user. User PEs include command and application PEs Redundant PE A redundant PE is not configured into the system until an active PE fails. Cray T3E Poznań Supercomputing and Networking Center

SuperCluster Environment Poznań Supercomputing and Networking Center Heterogenous Workstation Servers HIPPI

Job distribution and load balancing Cray NQX (NQE for Unicos) Open systems remote file access: NFS Standard, secured distributed file system: DCE DFS Server Client/server based distributed computing: DCE Client Services Cray Message Passing Toolkit (MPT): PVM, MPI High performance, resilient file sharing:opt. Shared File System (SFS) Client/server hierarchical storage management:opt. Data Migration Facility (DMF) SuperCluster Software Components Poznań Supercomputing and Networking Center

Network Queuing Environment (NQE) NQE consists of four components : Network Queuing System (NQS), Network Load Balancer (NLB) File Transfer Agent (FTA), Network Qeuing Environment clients NQE is a batch queuing system that automatically load balances jobs across heterogenous systems on a network. It runs each job submitted to the network as efficiently as possible on the ressources available. This provides faster turnaround for users and automatic load balancing to ensure that all systems on the network are used effectively. SuperCluster Software Components Poznań Supercomputing and Networking Center

Requirements

Consists of up to eight Power Challenge or Power Onyx (POWERnode) supercomputing systems connected by a high performance HIPPI interconnect Two level communication hierarchy, whereas CPUs within a POWERnode communicate via a fast shared bus interconnect and CPUs across POWERnode communicate via HIPPI interconnect POWER CHALLENGEarray Poznań Supercomputing and Networking Center

Parallel programming models supported: Shared memory with n processes inside a POWERnode Message passing with n processes inside a POWERnode Hybrid model with n processes inside a POWERnode, using a combination of shared memory and message passing Message passing with n processes over p POWERnodes Hybrid model with n processes over p POWERnodes, using a combination of shared memory within a POWERnode system and message passing between POWERnodes POWER CHALLENGEarray Poznań Supercomputing and Networking Center

Multiparallel Memory Sharing Message Passing MPI Model Poznań Supercomputing and Networking Center

Software: Native POWERnode tools IRIX 6.x, XFS, NFS, MIPSpro compilers, scientific and math libraries, development environment Array services Allows to manage and administer the array as a single system Distributed program development tools HPF, MPI and PVM libraries, tools for distributed program visualization and debugging (Upshot, XPVM) Distributed batch processing tools LSF, CODINE Distributed system management tools IRIXPro, Performance Co-Pilot (PCP) Poznań Supercomputing and Networking Center POWER CHALLENGEarray

An array session is a set of processes, possibly running across several POWERnodes, that are related to another by a single, unique identifier called the Array Session Handle (ASH). A local ASH is assigned by the kernel and is guaranteed to be unique within a single POWERnode, whereas a global ASH is assigned by the array services daemon and is unique across the entire POWER CHALLENGEarray. Poznań Supercomputing and Networking Center

35 POZNAŃ SUPERCOMPUTING AND NETWORKING CENTER Zarządzanie dużymi ilościami danych Główne problemy: duże ilości danych czas odpowiedzi przepustowość istniejących sieci opóźnienia odnalezienie źródła danych kompatybilność formatów spójność danych

36 Konfiguracja Archiwizatora Pojemność 5,2 TB bez kompresji Serwer Sun Enterprise 450 –2 proc., 512 MB RAM, 100 GB dysków –interfejsy - ATM, FDDI, Ethernet 10/100 –oprogramowanie UniTree Robot ATL - 198 taśm (10/20 i 35/70 GB) Roboty dysków magneto-optycznych HP –660ex - 128 płytek po 5,2 GB –165st - 128 płytek po 1,3 GB

37 Hierarchiczny system pamięci masowej Poziom 1 - pamięć dyskowa (cache) –szybki dostęp, drogi nośnik Poziom 2 - dyski magneto-optyczne –dostęp w kilkanaście sekund, tańszy nośnik Poziom 3 - taśmy –dostęp do kilku minut, najtańszy nośnik (taśma CompactTape IV 35/70 GB - 100USD) Cena nośnika Czas dostępu

38 Zarządzanie UniTree Dostęp (ftp, nfs) Widoczny normalny system plików Cache –dolny i górny wysoki znacznik poziomu wody –wirtualny cache - aktualnie ponad 80 GB Polityka migracji (wielkość, wiek) Repakowanie (defragmentacja) nośników (zapis sekwencyjny także na płytkach M-O) Backup baz systemu archiwizacji na taśmy

39 Ustalenie polityki migracji Analiza rozkładu danych, ilości plików o ustalonej wielkości Równomierne obciążenie dostępnych mediów wszystkich poziomów (nie licząc pamięci dyskowej) Pliki zapisywane są na poszczególne media w zależności od wielkości Zdefiniowanie polityki równoległego zapisu dalszych kopii; ważne, aby kopia znajdowała się w innej bibliotece Analiza dynamiki przyrostu ilości i wielkości plików Definiowanie czasu po jakim nieużywane pliki przenoszone są na tańsze media

40 Problemy i ograniczenia Przepustowość - liczba napędów (robotów) Występowanie kolejki taśm nieograniczony rozmiar pliku – praktycznie zależy od wielkości cache duże zasoby dyskowe PCSS okna czasowe dla backupów równoległy dostęp użytkowników

41 Zarządzanie rozproszonymi systemami archiwizacji Wszystkie systemy widoczne jako jeden wielki system pamięci masowej Wybór najszybciej dostępnego systemu – analiza obciążenia i przepustowości sieci Replika wybranych danych pomiędzy systemami – problem spójności danych Polityka rozliczania użytkowników z rozproszonymi danymi

42 Rozproszony system pamięci masowej Distributed Storage Data backup Data recovery - Even data distribution - Geographical mirror - Fast backup - Fast recovery mirror

43 Łatwy, zdalny dostęp do archiwizatora przez WWW Automatyczny i okresowy backup systemów Bezpieczna transmisja Zwiększona odporność na błędy Kontrola stanu systemu archiwizacji Dedykowany serwer i klient ftp Zdefiniowane okno czasowe System Automatycznej Archiwizacji - główne cele

44 System Automatycznej Archiwizacji - działanie single or periodic backups Data base Distributed Archive Manager Server WWW browser Secure transmission e-mail single or periodic backups Data base Distributed Storage Manager Server WWW

45 POZNAŃ SUPERCOMPUTING AND NETWORKING CENTER Środowisko heterogeniczne - przykłady

46 POZNAŃ SUPERCOMPUTING AND NETWORKING CENTER Metacomputer at PSNC

47 POZNAŃ SUPERCOMPUTING AND NETWORKING CENTER National Computing Grid GDAŃSK ŁÓDŹ KRAKÓW POZNAŃ WROCŁAW

48 POZNAŃ SUPERCOMPUTING AND NETWORKING CENTER National Computing Grid - PLATFORMS GDAŃSK POZNAŃ ŁÓDŹ WROCŁAW SILESIA KRAKÓW Cray systems SGI systems (Origin2000, Onyx2, Pchallenge) other platforms (i.e. SUN)

49 POZNAŃ SUPERCOMPUTING AND NETWORKING CENTER Systemy kolejkowe Jest to system zarządzania zadaniami umożliwiający: wykonanie większej ilości zadań w mniejszym czasie poprzez wykonanie większej ilości zadań w mniejszym czasie poprzez dopasowanie ich wymagań obliczeniowych do dostępnych dopasowanie ich wymagań obliczeniowych do dostępnych zasobów - lepsze wykorzystanie mocy obliczeniowej zasobów - lepsze wykorzystanie mocy obliczeniowej łatwe zarządzanie równym obciążeniem procesorów łatwe zarządzanie równym obciążeniem procesorów sprawiedliwy przydział zasobów procesom użytkowników sprawiedliwy przydział zasobów procesom użytkowników restartowanie zadań zatrzymanych w przypadku awarii sprzętu restartowanie zadań zatrzymanych w przypadku awarii sprzętu lub czynności administracyjnych lub czynności administracyjnych warunkowe wykonywanie ciągów programów warunkowe wykonywanie ciągów programów Systemy zarządzania zadaniami w trybie wsadowym.

50 Struktura systemu kolejkowego –Maszyna Przetwarzająca (ang. Executing Machines) –Maszyna Zlecająca (ang. Submitting Machines) –Maszyna Szeregująca (ang. Scheduling Machines) –Centralnego Zarządca (ang. Central Manager) Wszystkie w/w funkcje mogą być realizowane na jednej maszynie

51 Przepływ zadania Centralny Zarządca informacje o maszynie Maszyna Przetwarzająca Maszyna Przetwarzająca Maszyna Szeregująca Maszyna Szeregująca dołączenie zadania informacje o zadaniu status zadania Maszyna Zlecająca Maszyna Zlecająca

52 Rozwój systemów kolejkowych LL LSF NQE

53 Kolejki typu pipe Kolejki organizacyjne Przekazują zadania do kolejek typu batch, w zależności od parametrów zadania i aktualnego stanu kolejek day night day_small day_medium day_large night_small night_large Kolejki typu pipe Kolejki typu batch

54 Kolejki typu batch Kolejki obliczeniowe Każda kolejka ma określony priorytet i limit zasobów, które zadanie może wykorzystywać Definiowana jest maksymalna liczba uruchomionych zadań w kolejce. Pozostałe zadania oczekują i uruchamiane są w razie możliwości.

55 Kolejki typu interaktywnego Kolejki zadań interaktywnych (np. vi, ABAQUS, Matlab) - zadania nie wymagają wiele czasu CPU Ubieganie się o zasoby w systemie wsadowo- interakcyjnym - sterowanie parametrami kolejek wsadowych w celu uniknięcia rezerwacji wszystkich dostępnych zasobów Najważniejsza jest minimalizacja liczby dostępów do pamięci wirtualnej, im jest ona większa, tym czas odpowiedzi systemu mniejszy Niektóre systemy kolejkowe dostarczają narzędzia uruchamiającego zadania w klastrze bez konieczności specyfikowania nazwy serwera

56 Równoważenie obciążenia Statyczny przydział zasobów do zadania na podstawie wiedzy o bieżącym obciążeniu wszystkich systemów Usypianie i budzenie zadań w związku z ich priorytetami Usypianie zadań w kolejce aktywnej np. tylko w nocy Dynamiczna migracja zadań pomiędzy mocno - słabo obciążonymi serwerami Migracja zadań na serwery o bardziej odpowiednich zasobach Wada migracji - niekompatybilność obrazów pamięci procesów pomiędzy architekturami komputerów

57 POZNAŃ SUPERCOMPUTING AND NETWORKING CENTER Systemy kolejkowe - podsumowanie LSF NQE LL równoważenie obciążenia równoważenie obciążenia praca w trybie wsadowym i interaktywnym praca w trybie wsadowym i interaktywnym interfejsy do innych systemów kolejkowych interfejsy do innych systemów kolejkowych checkpointing checkpointing możliwość migracji zadań możliwość migracji zadań budowanie klastrów (środowiska budowanie klastrów (środowiska heterogenicznego) heterogenicznego) nie wspierają zadań rozproszonych nie wspierają zadań rozproszonych migracja zadań możliwa tylko w środowisku migracja zadań możliwa tylko w środowisku homogenicznym (systemy binarnie homogenicznym (systemy binarnie kompatybilne) kompatybilne)

58 POZNAŃ SUPERCOMPUTING AND NETWORKING CENTER GLOBUS System metakomputerowy

59 POZNAŃ SUPERCOMPUTING AND NETWORKING CENTER The Computational Grid Dependable: can provide performance and functionality guarantees Consistent: uniform interfaces to wide variety of resources Pervasive: ability to plug- in from anywhere "Dependable, consistent, pervasive access to resources"

60 POZNAŃ SUPERCOMPUTING AND NETWORKING CENTER Globus - goals Metacomputer = networked virtual supercomputer Provide basic infrastructure that can be used to construct portable, high-performance implementations Understand application requirements and develop the essential technologies required to meet these requirements

61 POZNAŃ SUPERCOMPUTING AND NETWORKING CENTER Globus toolkit - overview The toolkit comprises a set of components that implement basic services of security, resource management, communication, etc. The toolkit distinguishes between local services, and global services (on top of local). Interfaces are defined so as to manage heterogeneity, rather than hiding it. An information service is an integral component of the toolkit

62 POZNAŃ SUPERCOMPUTING AND NETWORKING CENTER Globus Toolkit

63 POZNAŃ SUPERCOMPUTING AND NETWORKING CENTER Core Globus Services Resource management (GRAM) Information services (MDS) Communication infrastructure (Nexus) Remote file and executable managment (GASS and GEM) Process monitoring (HBM) Security (GSI)

64 POZNAŃ SUPERCOMPUTING AND NETWORKING CENTER Resource Management RSL - used to express requests Resource brokers - take high-level RSL and transform it into more concrete specification Co-allocator - responsible for coordinating the allocation and management of resources at multiple sites Information service - provides efficient and pervasive access to information about the current availability and capability of resources

65 POZNAŃ SUPERCOMPUTING AND NETWORKING CENTER Resource Management

66 POZNAŃ SUPERCOMPUTING AND NETWORKING CENTER GRAM functions Processing RSL specifications representing resource requests, by either denying the request or by cerating one or more processes Enabling remote monitoring and management of jobs, created in response to a resource request Periodically updating the MDS information service with information about the current availability and capabilities of the resources that it manages

1

Podobne prezentacje

Prezentacja na temat: "1"— Zapis prezentacji:

Podobne prezentacje

О projekcie

Zwrotny adres

Wejść

Zaloguj się poprzez sieć społeczną:

1

Podobne prezentacje

Prezentacja na temat: "1"— Zapis prezentacji:

Podobne prezentacje

О projekcie

Zwrotny adres