Jak znaleźć igłę w terabajcie siana Marcin Sochacki.

Slides:



Advertisements
Podobne prezentacje
Sieci komputerowe.
Advertisements

SIECI KOMPUTEROWE WYKŁAD 10. RÓWNOWAŻENIE OBCIĄŻEŃ
Promotor: prof. dr hab. inż. Andrzej Grzywak mgr inż. Piotr Kasprzyk
Usługa powszechnej archiwizacji PLATON-U4
Kielce na rynku od 2001 r.. Kolporter Info SA Kielce 2006 Zakres działalności: OPROGRAMOWANIE - produkcja, sprzedaż, instalacja i serwis INSIGNUM.
Sieci komputerowe.
ARCHIWIZACJA I KOMPRESJA DANYCH
ADAM Active Directory w trybie aplikacyjnym
Zapis danych.
Wyszukiwanie zaawansowane w środowisku internetowym Maja Wilczewska-Wojczyszyn.
POZNAŃ SUPERCOMPUTING AND NETWORKING CENTER 1 Stan oraz koncepcje zadań realizowanych przez PCSS w ramach projektu LDAP PCSS, Lipiec 2002.
Jednostki pamięci komputera
Wykład nr 1: Wprowadzenie. Pojęcia podstawowe
Systemy operacyjne Bibliografia:
Longhorn - Usługi terminalowe
Artur Szmigiel Paweł Zarębski Kl. III i
Pliki i foldery, jednostki informacji
Opracował: mgr Mariusz Bruździński
SIECI KOMPUTEROWE PIOTR MAJCHER PODSTAWOWE POJĘCIA.
1/18 LOGO Profil zespołu. 2/18 O nas Produkcja autorskich rozwiązań informatycznych dla małych i średnich firm w zakresie systemów: Baz danych Aplikacji.
USŁUGA FTP 1. Definicja FTP. FTP (File Transfer Protocol, ang. protokół transmisji plików) jest protokołem typu klient-serwer, który umożliwia przesyłanie.
STORAGE Pamięci masowe.
Sieciowe systemy operacyjne
SIECI KOMPUTEROWE RODZAJE.
Redundant Array of Inexpensive/Independent Disks
SIEĆ P2P 1. Definicja sieci równouprawnionej. To taka sieć, która składa się z komputerów o takim samym priorytecie ważności, a każdy z nich może pełnić.
Aktualne koncepcje zabezpieczania danych – backup
Budowa Komputera Co powinieneś znać !.
… iSCSI … Windows Server 2012 Łukasz Dylewski.
Magazyny pamięci.
Budowa sieci mgr inż. Łukasz Dylewski
Dotcom Projektowanie systemów CCTV Projektowanie sieci LAN
najlepsza strategia rozwoju operatora internetowego na polskim rynku
Temat 1: Podstawowe pojęcia dotyczące lokalnej sieci komputerowej
Autor: Justyna Radomska
Solphy Polska Prezentacja Produktu Solphy Home Storage.
Budowa i organizacja zapisu danych na dysku twardym
Topologie sieci lokalnych.
Jednostki w informatyce i system binarny (dwójkowy)
Systemy plików FAT, FAT32, NTFS
Pamięć komputerowa S t r u k t u r a p a m i ę c i.
Jednostki używane w informatyce
Sieci komputerowe.
Sieci komputerowe.
Skalowanie aplikacji JPA na przykładzie Oracle TopLink Grid
Cele RAID zwiększenie niezawodności (odporność na awarie),
Jednym z podstawowych celów tworzenia sieci komputerowych jest współdzielenie zasobów, takich jak pliki lub drukarki. Każdy z takich zasobów musi być udostępniony,
NOŚNIKI DANYCH KOMPUTEROWYCH
Nasza grupa pracuje na Windowsie xp professional. Komputer posiada 3 dyski o łacznej wielkosci 120Gb procesor to Intel Celeron 2.4 Ghz Posiada 512 Mb.
BUDOWA I DZIAŁANIE SIECI KOMPUTEROWYCH LEKCJA 1: Zadania sieci komputerowych i modele sieciowe Dariusz Chaładyniak.
WSPM - Wirtualny System Plików Multimedialnych Igor BOKUN, Stanisław STRELNIK, Krzysztof ZIELIŃSKI Katedra Informatyki Akademia Górniczo-Hutnicza.
SIEĆ KLIENT-SERWER Pojęcie sieci typu klient – serwer.
Nowa architektura EZD PUW
Struktura systemu operacyjnego
Problematyka izolacji wydajności w systemach wirtualizowanych
Systemy operacyjne - Budowa systemu komputerowego i jego zadania
Architektura Rafał Hryniów. Architektura Wizja projektu systemu, którą dzielą twórcy Struktura komponentów systemu, ich powiązań oraz zasad i reguł określających.
TOPOLOGIE SIECI. Topologia sieci- określa sposób połączenia urządzeń sieciowych ze sobą. Najbardziej znane topologie:  Topologia magistrali  Topologia.
Rozproszony system plików Coda Krzysztof Lichota.
Jednostki pamięci komputera
Wady i zalety pracy w chmurze
Sieć komputerowa Rodzaje sieci
RAID RAID (ang. Redundand Array of Independent Disks) to sposób połączenia dwóch lub większej ilości dysków twardych w jedną macierz, która zapewnia dodatkową.
T. 14 Platforma systemowa dla informatycznych narzedzi reengineeringu.
Lekcje z komputerem-wprowadzenie
Grzegorz Chodak Wykład
Wydział Matematyki, Informatyki i Architektury Krajobrazu
Linux ssh.
Lekcje z komputerem-wprowadzenie
Konteneryzacja i DevOps
Zapis prezentacji:

Jak znaleźć igłę w terabajcie siana Marcin Sochacki

Skala działania Biorąc pod uwagę tylko WWW: miliardy zindeksowanych stron średnio 10 KB/stronę efekt: setki terabajtów Trudne zadanie, ale wykonalne: potrzebujemy dużo komputerów i dysków i sieci i oprogramowania

Kluczowe wymagania stabilność pracy skalowalność szybkość odpowiedzi rozsądny koszt

Przechowywanie danych Dyski IDE są tanie ale awaryjne Nawet największa macierz RAID to za mało Rozwiązanie: Google File System (GFS) – replikacja danych na wiele maszyn (do kilku tysięcy/klaster, Linux + ext2ext4) Wiele petabajtów, duża odporność na awarie Transfer rzędu 100 GB/s i więcej

Sprzęt Wiele serwerowni na całym świecie Routery, switche, load balancery Racki z maszynami Dwa switche GigE w każdym racku Komponenty PC głównie z Dalekiego Wschodu, robione na zamówienie 100% Linux

Sprzęt (1997)

Sprzęt (1999)

Dublin nocą (2005)

Sprzęt (2009)

Dalles, OR

Założenia GFS Częste awarie sprzętu Relatywnie ”mało” dużych plików kilka milionów, >100 MB Pliki są rzadko tworzone, często dopisywane zwykle równolegle (logi, kolejki)! Duże ciągłe odczyty Duża przepustowość ważniejsza od niskich opóźnień

Google File System (GFS) Master zarządza metadanymi (w RAM) Transfer danych odbywa się bezpośrednio między klientem a chunkserwerem Pliki podzielone są na kawałki (chunks) – zwykle do 64 MB Kawałki są przechowywane zwykle w trzech kopiach na różnych maszynach

Wnętrzności GFS Brak cache'owania danych Log transakcyjny przechowywany na masterze i replikowany, checkpointy Zapobieganie awariom, replikacja metadanych, sumy kontrolne Zapis tylko przez głównego mastera (blokady plików) Odczyt również poprzez repliki Chunkserwery można współdzielić z innymi funkcjami

Wnętrzności GFS (c.d.) Sprytne klonowanie i balansowanie danych Algorytm klienta wykorzystuje info o lokalizacji Integralność danych: sumy kontrolne co 64KB Garbage collection Snapshoty, quota Kodowanie Reed-Solomon Wady: słaba wydajność dla małych plików

GFS dla użytkownika tool ls -l /gfs/xx/home/wanted API do C++, Python, Java hackowany moduł do FuSE spore zależności od reszty infrastruktury, np. Chubby lock & name service optymalizacje dla BigTable i innych

Wpadki... ”no chunk left behind” wredny switch... sumy kontrolne w TCP sumy kontrolne w GFS (Adler-32) książki papa...

Konkurencja Global File System (GFS/GFS2) od Red Hata wymaga SAN/iSCSI Lustre 15/30 na top500 serwer metadanych (MDS) w trybie active/standby brak wbudowanej redundancji TASK 2009/04, 520 TB, 10 GB/s InterMezzo, Coda, AFS, GlusterFS, Ceph, GPFS, MogileFS

That's all folks Pytania?