NVIDIA DGX istasyonu A100, optimum performans ve güvenilirliği sağlamak için sofistike bir sıcaklık izleme sistemi ile tasarlanmıştır. Bileşenleri için sıcaklık izlemeyi nasıl ele alıyor:
1. Sıcaklık izleme arayüzü: DGX istasyonu A100, süpürgelik yönetim denetleyicisi (BMC) aracılığıyla web tabanlı bir kullanıcı arayüzüne sahiptir. Bu arabirim, kullanıcıların GPU'lar, bellek DIMM'leri, CPU, ekran kartı ve anakart gibi kritik bileşenlerin sıcaklıklarını izlemelerini sağlar. Bu bileşenler için gerçek zamanlı okumalar ve geçmiş grafikler sağlar ve yöneticilerin zaman içinde sıcaklık eğilimlerini izlemelerini sağlar [1].
2. Bileşen izleme: Sistem sadece sıcaklıkları değil, aynı zamanda fan hızları, güç tüketimi ve sistem voltajları gibi diğer hayati parametreleri de izlemek için donanımlıdır. Bu kapsamlı izleme, potansiyel sorunların büyük sorunlara dönüşmeden önce belirlenmesine yardımcı olur [1].
3. Uzaktan Yönetim: BMC, sistemin seri konsoluna erişmek için LAN üzerinden seri (SOL) dahil olmak üzere uzaktan yönetim özelliklerini de destekler. Bu, yöneticilerin BIOS ayarlarını veya kurulu işletim sistemini uzaktan yönetmelerine olanak tanır. Ayrıca BMC, kullanıcıların sistemi uzaktan görüntülemelerini ve yönetmelerini sağlayan uzaktan klavye, video, fare (KVM) işlevselliği sağlar [1].
4 Soğutma Sistemi: DGX istasyonu A100, bakım gerektirecek şekilde tasarlanmış bir soğutucu tabanlı soğutma sistemi kullanır. Bu sistem GPU'lara monte edilmiş soğuk plakalar ve CPU, bir dolaşım pompası, sıhhi tesisat ve bir ısı eşanjörü içerir. Soğutma sistemi çevre açısından güvenli ve toksik değildir, su seviyesi kontrolleri veya doldurma ihtiyacını ortadan kaldırır [1].
5. Çalışma sıcaklığı aralığı: Sistem, 5 ° C ila 30 ° C nominal sıcaklık aralığında çalışır, ancak ortam çalışma aralığı 10Â ° C ila 35â ° C'de biraz daha geniştir [4] [7]. Bu aralık, özel soğutma altyapısı gerektirmeden sistemin tipik ofis ortamlarında verimli bir şekilde çalışmasını sağlar.
Genel olarak, DGX istasyonu A100'ün sıcaklık izleme ve soğutma sistemi, ofis ortamlarında güvenilir bir çalışma sağlamak için tasarlanmıştır, bu da kapsamlı BT altyapısına ihtiyaç duymadan veri bilimi ekipleri ve AI çalışma grupları için uygun hale getirir.
Alıntılar:
[1] https://www.robusthpc.com/wp-content/uploads/2021/11/nvidia-dgx-paper_published.pdf
[2] https://docs.nvidia.com/dgx/dgxa100-user-guide/introduction-ton-dgxa100.html
[3] https://massedcompute.com/faq-answers/?question=how+to+Monitor+and+ ve+Manage+Tarature+in+nvidia+100+gpu%3f
[4] https://docs.nvidia.com/dgx/dgx
[5] https://www.advanced-untegation.ae/wp-content/uploads/2022/08/dgx_station_a100_datasheet_ai-webonly.pdf
[6] https://www.redbooks.ibm.com/redbooks/pdfs/sg248538.pdf
[7] https://nanoporetech.com/document/nvidia-dgx-ptation-a100-installation-and-use
[8] https://www.com.com/dgxstation-a100.html
[9] https://www.reddit.com/r/watercooling/comments/1it9rzf/nvidia_dgx_station_a100s_overheating/