NVIDIA DGX istasyonu A100, birden fazla kullanıcıyı ve uzaktan erişimi verimli bir şekilde işlemek için tasarlanmıştır, bu da onu merkezi AI kaynakları gerektiren veri bilimi ekipleri ve kuruluşlar için ideal bir çözüm haline getirir. İşte bu yetenekleri nasıl yönetiyor:
birden çok kullanıcıyı işleme
- Çoklu GPU (MIG): DGX istasyonu A100, 28'e kadar ayrı GPU cihazının bireysel kullanıcılara veya işlere tahsis edilmesini sağlayan MIG'yi destekler. Bu, birden fazla kullanıcının sistem performansını etkilemeden aynı GPU'yu aynı anda paylaşabileceği anlamına gelir. MIG, her GPU örneğinin kendi belleğine, önbelleğine ve çok işlemcisi akışına sahip olmasını sağlar ve verimli kaynak kullanımı sağlar [1] [2].
- Paralel iş yükleri: Sistem, eğitim, çıkarım ve analitik iş yüklerini paralel olarak çalıştırabilir. Bu, birden fazla kullanıcının aynı anda farklı projeler üzerinde çalışmasını sağlar ve birbirine bağlı dört NVIDIA A100 GPU'nun tam potansiyelinden yararlanır [1] [4].
- Kaynak Paylaşımı: MIG, öğrenciler veya veri bilimi ekiplerinin üyeleri gibi birden fazla kullanıcı arasında kaynak paylaşımını kolaylaştırır. Bu özellik özellikle çoklu çıkarım işlerini değerlendirmek veya model keşfi için Jupyter dizüstü bilgisayarları kullanmak için kullanışlıdır [2].
Uzaktan Erişim ve Yönetim
- Uzaktan Yönetim: DGX istasyonu A100, sağlam uzaktan yönetim özellikleri sunar. Kullanıcılar, ayrıntılı sistem günlükleri, sensör okumaları ve performans izleme sağlayan web tabanlı bir arayüz kullanarak sistemi uzaktan yönetebilir. Bu, GPU'ların, bellek DIMM'lerinin, CPU'nun ve diğer bileşenlerin sıcaklık izlemesini içerir [2].
- IPMI ve KVM: Sistem, otomatik izleme ve yönetim için IPMI'yi (Akıllı Platform Yönetim Arayüzü) destekler. Ayrıca, kullanıcıların sistemin ekranına uzaktan erişmesine ve fiziksel olarak mevcut gibi yönetmelerine olanak tanıyan KVM (klavye, video, fare) işlevselliği sunar. Bu, sistemi uzaktan önyükleme veya yeniden yükleme için sanal depolama özelliklerini içerir [2].
- Güvenli Protokoller: Farklı makinelerden DGX istasyonuna uzaktan erişim sağlamak için SSH gibi güvenli protokoller ayarlanabilir. Bu, kullanıcıların AI iş yüklerini her yerden esnek bir şekilde yönetmelerine olanak tanır [5].
-NVIDIA Sistem Yönetimi Arayüzü: Kullanıcılar, kullanım yüzdeleri ve sıcaklık değerleri de dahil olmak üzere GPU performansını izlemek ve yönetmek için NVIDIA Sistem Yönetimi Arayüzü (NVIDIA-SMI) komut satırı aracını kullanabilirler [5].
Genel olarak, DGX istasyonu A100, birden fazla kullanıcı ve uzaktan erişim için güçlü, ofis dostu bir çözüm sunar ve bu da kurumsal ofislerden araştırma tesislerine kadar çeşitli ortamlar için uygun hale getirir.
Alıntılar:
[1] https://www.com.com/dgxstation-a100.html
[2] https://www.robusthpc.com/wp-content/uploads/2021/11/nvidia-dgx-paper_published.pdf
[3] https://docs.nvidia.com/dgx/pdf/dgx-tation-user-guide.pdf
[4] https://www.e4company.com/wp-content/uploads/dgx-family-print-dgx-tation-a--datasheet-us-partner.pdf
[5] https://www.fibermall.com/blog/nvidia-dgx-systems.htm
[6] https://opentools.ai/news/nvidia-unleashes-the-future-with-personal-ai-supercomputers
[7] https://www.techpowerup.com/forums/threads/nvidia-onnounces-dgx-park-dgx-s-personal-ai-computers.334300/
[8] https://www.serversimply.com/blog/how-to-connect-to-nvidia-dgx-cloud-Advantages-configurations-and-setup-guide