Stația NVIDIA DGX A100 este proiectată pentru a gestiona eficient mai mulți utilizatori și acces la distanță, ceea ce îl face o soluție ideală pentru echipele și organizațiile de știință a datelor care necesită resurse AI centralizate. Iată cum gestionează aceste capacități:
gestionarea mai multor utilizatori
- GPU multi-instanță (MIG): Stația DGX A100 acceptă MIG, care permite alocarea unor 28 de dispozitive GPU separate pentru utilizatori sau locuri de muncă individuale. Aceasta înseamnă că mai mulți utilizatori pot partaja același GPU simultan fără a avea impact asupra performanței sistemului. MIG permite fiecărei instanțe GPU să aibă propria sa memorie, memorie cache și multiprocesor de streaming, asigurând utilizarea eficientă a resurselor [1] [2].
- Sarcini de lucru paralele: Sistemul este capabil să ruleze în paralel antrenament, inferență și analize în paralel. Acest lucru permite mai multor utilizatori să lucreze simultan la diferite proiecte, folosind întregul potențial al celor patru GPU -uri NVIDIA A100 interconectate [1] [4].
- Partajarea resurselor: MIG facilitează schimbul de resurse între mai mulți utilizatori, cum ar fi studenții sau membrii echipelor de știință a datelor. Această caracteristică este utilă în special pentru evaluarea mai multor lucrări de inferență sau pentru utilizarea caietelor Jupyter pentru explorarea modelului [2].
Acces și gestionare la distanță
- Management la distanță: Stația DGX A100 oferă capabilități robuste de gestionare la distanță. Utilizatorii pot gestiona sistemul de la distanță folosind o interfață bazată pe web care oferă jurnale detaliate de sistem, citiri de senzori și monitorizare a performanței. Aceasta include monitorizarea temperaturii GPU, DIMM -urile de memorie, CPU și alte componente [2].
- IPMI și KVM: Sistemul acceptă IPMI (Intelligent Platform Management Management) pentru monitorizare și gestionare automată. În plus, oferă funcționalitate KVM (tastatură, video, mouse), permițând utilizatorilor să acceseze de la distanță afișajul sistemului și să -l gestioneze ca și cum ar fi prezentat fizic. Aceasta include capacități de stocare virtuale pentru pornirea sau reinstalarea la distanță a sistemului [2].
- Protocoale sigure: Protocoale sigure precum SSH pot fi configurate pentru a permite accesul la distanță la stația DGX din diferite mașini. Acest lucru permite utilizatorilor să își gestioneze sarcinile de lucru AI flexibil de oriunde [5].
-Interfață de gestionare a sistemului NVIDIA: Utilizatorii pot utiliza instrumentul de linie de comandă al interfeței de gestionare a sistemului NVIDIA (NVIDIA-SMI) pentru a monitoriza și gestiona performanța GPU, inclusiv procentele de utilizare și valorile de temperatură [5].
În general, DGX Station A100 oferă o soluție puternică, prietenoasă pentru birou, pentru mai mulți utilizatori și acces la distanță, ceea ce o face potrivită pentru o varietate de medii, de la birouri corporative până la facilități de cercetare.
Citări:
[1] https://www.compecte.com/dgxstation-a100.html
[2] https://www.robusthpc.com/wp-content/uploads/2021/11/nvidia-dgx-station-a100-system-architecture-white-paper_published.pdf
[3] https://docs.nvidia.com/dgx/pdf/dgx-tatation-user-guide.pdf
[4] https://www.e4company.com/wp-content/uploads/dgx-family-prett-dgx-station-a100-datasheet-us-partner.pdf
[5] https://www.fibermall.com/blog/nvidia-dgx-systems.htm
[6] https://opentools.ai/news/nvidia-unleashes-the-future-with-personal-AI-Supercomputers
[7] https://www.techpowerup.com/forums/threads/nvidia-announces-dgx-spark-and-dgx-station-personal-AI-Computers.334300/
[8] https://www.serverSimply.com/blog/how-to-conect-to-nvidia-dgx-coloud-advantages-configurations-și-setup-guide