NVIDIA DGX Station A100 jest zaprojektowana tak, aby skutecznie obsługiwać wielu użytkowników i zdalny dostęp, co czyni ją idealnym rozwiązaniem dla zespołów i organizacji naukowych wymagających scentralizowanych zasobów AI. Oto jak zarządza tymi możliwościami:
Obsługa wielu użytkowników
- GPU wielu instancji (MIG): stacja DGX A100 obsługuje MIG, która umożliwia przydzielenie do 28 oddzielnych urządzeń GPU na poszczególne użytkowników lub zadania. Oznacza to, że wielu użytkowników może jednocześnie udostępniać ten sam GPU bez wpływu na wydajność systemu. MIG umożliwia każdemu instancji GPU posiadanie własnej pamięci, pamięci podręcznej i multiprocesora strumieniowego, zapewniając efektywne wykorzystanie zasobów [1] [2].
- Obciążenia równoległe: System jest w stanie równolegle prowadzić obciążenia szkoleniowe, wnioskowania i analityczne. Umożliwia to wielu użytkownikom jednocześnie pracować nad różnymi projektami, wykorzystując pełny potencjał czterech połączonych GPU NVIDIA A100 [1] [4].
- Udostępnianie zasobów: MIG ułatwia udostępnianie zasobów wśród wielu użytkowników, takich jak studenci lub członkowie zespołów naukowych. Ta funkcja jest szczególnie przydatna do oceny wielu zadań dotyczących wnioskowania lub korzystania z notebooków Jupyter do eksploracji modelu [2].
Zdalny dostęp i zarządzanie
- Zarządzanie zdalnym: stacja DGX A100 oferuje solidne możliwości zarządzania zdalnego. Użytkownicy mogą zarządzać systemem z odległości za pomocą interfejsu internetowego, który zapewnia szczegółowe dzienniki systemu, odczyty czujników i monitorowanie wydajności. Obejmuje to monitorowanie temperatury GPU, Dimm pamięci, procesora i innych komponentów [2].
- IPMI i KVM: System obsługuje IPMI (inteligentny interfejs zarządzania platformą) w celu automatycznego monitorowania i zarządzania. Ponadto oferuje funkcjonalność KVM (klawiaturę, wideo, myszy), umożliwiając użytkownikom zdalny dostęp do wyświetlania systemu i zarządzanie nim tak, jakby były fizycznie obecne. Obejmuje to wirtualne możliwości pamięci do zdalnego uruchamiania lub ponownego instalacji systemu [2].
- Bezpieczne protokoły: Bezpieczne protokoły, takie jak SSH, można skonfigurować, aby umożliwić zdalny dostęp do stacji DGX z różnych maszyn. Umożliwia to użytkownikom elastyczne zarządzanie obciążeniem AI z dowolnego miejsca [5].
-Interfejs zarządzania systemem NVIDIA: Użytkownicy mogą korzystać z narzędzia wiersza poleceń NVIDIA System Management (NVIDIA-SMI) do monitorowania i zarządzania wydajnością GPU, w tym wartości procentowych użytkowania i wartości temperatury [5].
Ogólnie rzecz biorąc, stacja DGX A100 zapewnia potężne, przyjazne biurze rozwiązanie dla wielu użytkowników i zdalnego dostępu, co czyni ją odpowiednim dla różnych środowisk, od biur korporacyjnych po zakłady badawcze.
Cytaty:
[1] https://www.compecta.com/dgxstation-a100.html
[2] https://www.robusthpc.com/wp-content/uploads/2021/11/nvidia-dgx-station-a100-System-archite-paper_published.pdf
[3] https://docs.nvidia.com/dgx/pdf/dgx-station-user-guide.pdf
[4] https://www.e4company.com/wp-content/uploads/dgx-family-print-dgx-station-a100-datasheet-us-partner.pdf
[5] https://www.fibermall.com/blog/nvidia-dgx-system.htm
[6] https://opentools.ai/news/nvidia-unleashes-the-future-with-personal-ai-supercomputers
[7] https://www.techpowerup.com/forums/threads/nvidia-announces-dgx-spark-and-dgx-station-personal-ai-computers.334300/
[8] https://www.serversimply.com/blog/how-to-connect-to-nvidia-dgx-bloud-advantages-configurations-andretup-guide