NVIDIA DGX istasyonu A100'de güç izleme kurulumu, doğru ve verimli enerji tüketimi izlemesini sağlamak için en iyi birkaç uygulamayı içerir. İşte bazı ayrıntılı adımlar ve hususlar:
Sistemin güç mimarisini anlamak
DGX istasyonu A100, fan hızlarının izlenmesi, güç tüketimi ve sistem voltajları dahil olmak üzere sağlam güç yönetimi özellikleriyle tasarlanmıştır. Bu özellikler, sistem bileşenlerini izlemek ve yönetmek için web tabanlı bir kullanıcı arayüzü sağlayan süpürgelik yönetim denetleyicisi (BMC) arayüzü aracılığıyla erişilebilir [7].güç izleme için BMC kullanıyor
1. BMC'ye Erişim: BMC, güç tüketimini ve diğer sistem metriklerini izlemenizi sağlar. Bir web arayüzü veya IPMI komutları aracılığıyla erişebilirsiniz. Uzaktan erişimi kolaylaştırmak için BMC için statik bir IP adresi yapılandırdığınızdan emin olun [3] [7].2. IPMI yapılandırma: BMC'den sensör okumalarını yapılandırmak ve almak için `` ipmitool '' gibi araçları kullanın. Bu, düzenli aralıklarla toplanabilen güç tüketimi verilerini içerir [7].
Zaman Serisi Veri Toplama Uygulama
Zaman içinde güç tüketimini izlemek için, veri düzenli aralıklarla toplamanız ve bir zaman serisi veritabanında saklamanız gerekir. İşte nasıl yapabilirsiniz:1. Örnekleme Güç Verileri: BMC'den veya diğer izleme arabirimlerinden (örneğin her dakika) güç tüketimi verilerini örneklemek için komut dosyalarını veya araçları kullanın.
2. Zaman Serisi Veritabanı: Toplanan verileri saklamak için Prometheus veya IncluxDB gibi bir zaman serisi veritabanı oluşturun. Bu veritabanları, büyük miktarlarda zaman damgalı verilerin verimli bir şekilde işlenmesi için optimize edilmiştir [1].
3. Grafana ile görselleştirme: Güç tüketimi verilerini zaman içinde görselleştiren gösterge tabloları oluşturmak için Grafana'yı kullanın. Bu, enerji kullanım modellerinin kolay izlenmesine ve analizine izin verir [1].
ek hususlar
- Uzaktan Yönetim: Sistemi fiziksel erişim olmadan yönetmek için BMC'nin LAN (SOL) ve KVM özellikleri dahil olmak üzere uzaktan yönetim özelliklerinden yararlanın [7].- Güç kaynağı yönetimi: Güç kaynağı rocker anahtarının çalışma sırasında güç sorunlarından kaçınmak için uygun şekilde yönetildiğinden emin olun [8].
- Güvenlik önlemleri: Her zaman verilen güç kablosunu kullanın ve aşırı yük koruması yoktur [8].
Bireysel Bileşenleri İzleme
BMC sistem düzeyinde güç verileri sağlarken, GPU'lar gibi bireysel bileşenleri de izlemek isteyebilirsiniz. NVIDIA DCGM gibi araçlar GPU performansı ve güç tüketimini yönetmeye ve izlemeye yardımcı olabilir [1].Veri Merkezi Entegrasyonu
DGX istasyonu A100 daha büyük bir veri merkezi kurulumunun bir parçasıysa, güç izlemeyi veri merkezinin altyapısıyla entegre etmeyi düşünün. Bu, yukarı akış güç dağıtım ünitelerinden (PDU) güç verilerine erişmek için veri merkezi ekibiyle çalışmayı içerebilir [1].Alıntılar:
[1] https://www.reddit.com/r/hpc/comments/1125pw7/nvidia_dgxa100_energy_monitoring/
[2] https://docs.nvidia.com/dgx/dgxa100-user-guide/introduction-ton-dgxa100.html
[3] https://www.manualslib.com/manual/2197924/nvidia-dgx-tation-a100.html
[4] http://cdn.cnetcontent.com/2f/68/2f6888a0-063f-4d76-94e4-8666b7619dfd.pdf
[5] https://docs.nvidia.com/dgx/pdf/dgxa100-user-guide.pdf
[6] https://docs.nvidia.com/dgx/pdf/best-practices-dgx.pdf
[7] https://www.robusthpc.com/wp-content/uploads/2021/11/nvidia-dgx-paper_published.pdf
[8] https://docs.nvidia.com/dgx/pdf/dgx
[9] https://docs.nvidia.com/dgx/dgx