Czy komputery zabiją genomikę?
Problemy Ogromne ilości danych do przechowywania Zbyt słabe komputery aby „łączyć” sekwencje Nieoptymalne formaty danych
Genom Genom to łańcuch zasad Zasady mogą występować w jednej z kilkudziesięciu odmian Genom może się składać z 4000 do zasad Genom człowieka składa się z 2 kopii, a każda ma zasad
Łączenie sekwencji Dzisiejsze maszyny generują krótkie sekwencje (50 – 120 zasad), które trzeba połączyć w całość Wynikiem działania najczęściej jest obraz, zamiast bardziej przyjaznych formatów
Przechowywanie danych Współczesne urządzenia są w stanie wyprodukować 5TB dziennie Baza danych zawierająca pełne genomy 629 ludzi ma 7.3TB danych Oprócz samego wyniku trzeba zapisać jak dokładna była analiza Możliwości sekwencjonowania podwajają się co 5 miesięcy
Przechowywanie danych cd.
Możliwe rozwiązania Cloud computing Lepsze formaty danych Zamiast zapamiętywać dane, za każdym razem od nowa sekwencjonować
Formaty danych Zapamiętywać zasady wraz z ich jakością Zapamiętać jeden wzorzec, i różnice pomiędzy nim a nowym genomem Takie różnice występują statystycznie na 0.1% pozycji Tracimy wtedy informacje o jakości
Cloud computing - zalety Możliwość taniego składowania danych Dostęp do dużej mocy obliczeniowej Nie trzeba za każdym razem ściągać danych, tylko wykonywać obliczenia w chmurze Trudniej zniszczyć dane w chmurze
Cloud computing - wady Bezpieczeństwo danych Upload/download danych może trwać wiele tygodni Wymiana informacji między chmurami Mało programów, które wspierają prace w chmurze Obecnie ceny nie uzasadniają przejścia do chmury Brak standardów przechowywania danych, protokołów itp.