


Apodis — wysokowydajny rozproszony system pamięci masowej do zastosowań HPC
Apodis (skrót od „A Pod of Disks”) to rozproszony system przechowywania danych przeznaczony do przechowywania i zarządzania dużymi ilościami danych na wielu komputerach. Został specjalnie zaprojektowany do obsługi zastosowań obliczeń o wysokiej wydajności (HPC), takich jak symulacje naukowe, analiza danych i uczenie maszynowe.
Apodis jest zbudowany w oparciu o protokół HDFS (Hadoop Distributed File System), który zapewnia elastyczną i skalowalny sposób przechowywania i pobierania danych w klastrze maszyn. Jednak w przeciwieństwie do tradycyjnych implementacji HDFS, Apodis dodaje kilka funkcji, które czynią go bardziej odpowiednim dla obciążeń HPC:
1. Wysokowydajne zarządzanie metadanymi: Apodis korzysta z niestandardowego systemu zarządzania metadanymi, zoptymalizowanego pod kątem obciążeń HPC. System ten pozwala na szybkie i efektywne odpytywanie systemu plików, nawet w przypadku bardzo dużych zbiorów danych.
2. Replikacja danych i redundancja: Apodis zapewnia obsługę replikacji i redundancji danych, co gwarantuje dostępność danych nawet w przypadku awarii maszyny lub partycji sieciowych.
3. Kodowanie kasujące: Apodis wykorzystuje kodowanie kasujące, aby zapewnić skuteczne odzyskiwanie danych w przypadku awarii maszyny. Oznacza to, że do odzyskiwania danych musi być dostępny tylko podzbiór maszyn, a nie wszystkie maszyny.
4. Obsługa równoległych operacji we/wy: Apodis został zaprojektowany do obsługi równoległych operacji we/wy, co pozwala na szybszy transfer danych i mniejsze opóźnienia.
5. Integracja z frameworkami HPC: Apodis został zaprojektowany tak, aby bezproblemowo współpracować z popularnymi frameworkami HPC, takimi jak OpenMPI, MPICH i OpenACC. Ułatwia to integrację Apodis z istniejącymi przepływami pracy HPC.
Ogółem Apodis to potężny i elastyczny rozproszony system pamięci masowej, który dobrze nadaje się do obciążeń HPC. Dzięki wydajnemu zarządzaniu metadanymi, replikacji i redundancji danych, kodowaniu kasującemu, obsłudze równoległych operacji we/wy oraz integracji ze strukturami HPC, jest to idealny wybór do symulacji naukowych na dużą skalę, analizy danych i aplikacji do uczenia maszynowego.



