Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon In che modo la stazione DGX gestisce più utenti e accesso remoto


In che modo la stazione DGX gestisce più utenti e accesso remoto


La stazione NVIDIA DGX A100 è progettata per gestire in modo efficiente più utenti e accesso remoto, rendendola una soluzione ideale per i team di dati e le organizzazioni che richiedono risorse centralizzate di intelligenza artificiale. Ecco come gestisce queste capacità:

Gestione di più utenti

- GPU multi-istanza (MIG): la stazione DGX A100 supporta MIG, che consente di allocare fino a 28 dispositivi GPU separati ai singoli utenti o lavori. Ciò significa che più utenti possono condividere la stessa GPU contemporaneamente senza influire sulle prestazioni del sistema. MIG consente a ciascuna istanza della GPU di avere una propria memoria, cache e streaming multiprocessore, garantendo un efficiente utilizzo delle risorse [1] [2].

- Carichi di lavoro paralleli: il sistema è in grado di eseguire carichi di lavoro di formazione, inferenza e analisi in parallelo. Ciò consente a più utenti di lavorare su diversi progetti contemporaneamente, sfruttando il pieno potenziale delle quattro GPU Nvidia A100 interconnesse [1] [4].

- Condivisione delle risorse: MIG facilita la condivisione delle risorse tra più utenti, come studenti o membri di team di scienze dei dati. Questa funzione è particolarmente utile per valutare più lavori di inferenza o utilizzare i notebook Jupyter per l'esplorazione del modello [2].

Accesso e gestione remoti

- Gestione remota: la stazione DGX A100 offre solide capacità di gestione remota. Gli utenti possono gestire il sistema a distanza utilizzando un'interfaccia basata sul Web che fornisce registri di sistema dettagliati, letture dei sensori e monitoraggio delle prestazioni. Ciò include il monitoraggio della temperatura di GPU, dimm di memoria, CPU e altri componenti [2].

- IPMI e KVM: il sistema supporta IPMI (Interfaccia di gestione della piattaforma intelligente) per il monitoraggio e la gestione automatizzati. Inoltre, offre funzionalità KVM (tastiera, video, mouse), consentendo agli utenti di accedere a distanza al display del sistema e gestirlo come se fossero fisicamente presenti. Ciò include funzionalità di archiviazione virtuale per l'avvio remoto o la reinstallazione del sistema [2].

- Protocolli sicuri: i protocolli sicuri come SSH possono essere impostati per consentire l'accesso remoto alla stazione DGX da diverse macchine. Ciò consente agli utenti di gestire i loro carichi di lavoro AI in modo flessibile da qualsiasi luogo [5].

-Interfaccia di gestione del sistema NVIDIA: gli utenti possono utilizzare lo strumento di riga di comando NVIDIA (Nvidia System Management Interface (NVIDIA-SMI) per monitorare e gestire le prestazioni GPU, comprese le percentuali di utilizzo e i valori di temperatura [5].

Nel complesso, la stazione DGX A100 offre una soluzione potente e adatta agli uffici per più utenti e accesso remoto, rendendolo adatto per una varietà di ambienti, dagli uffici aziendali alle strutture di ricerca.

Citazioni:
[1] https://www.competa.com/dgxstation-A100.html
[2] https://www.robusthpc.com/wp-content/uploads/2021/11/nvidia-dgx-station-a100-system-architecture-white-paper_publy.pdf
[3] https://docs.nvidia.com/dgx/pdf/dgx-station-user-guide.pdf
[4] https://www.e4company.com/wp-content/uploads/dgx-family-print-dgx-station-a100-dasheet-us-partner.pdf
[5] https://www.fibermall.com/blog/nvidia-dgx-systems.htm
[6] https://opentools.ai/news/nvidia-unleashes-the-future-with-personal-ai-supercomputer
[7] https://www.techpowerup.com/forums/threads/nvidia-announces-announces-spark-and-dgx-station-personal-ai-computer.334300/
[8] https://www.serversimply.com/blog/how-to-connect-to-nvidia-dgx-cloud-advantages-configurations-and-setup-guide