NVIDIA DGX İstasyonu A100'de güç izleme için bir Akıllı Güç Dağıtım Birimi (PDU) kurmak için şu ayrıntılı adımları izleyin:
1. Akıllı PDU'yu monte etmek **
- Montaj Seçenekleri: Akıllı PDU, bir rafta dikey veya yatay olarak monte edilebilir. Yatay montaj için, raf içinde uygun derinliği sağlamak için uygun braket montaj noktalarını seçin. L braketleri vidalı takın ve muhafazayı raf yuvalarına takarak yatay uyarlanabilirlik sağlar [3].- Dikey montaj: Akıllı PDU ile sağlanan düğme montaj kitini kullanın. Düğmeleri dikey olarak dağıtın ve gerektiğinde PDU'ya takın. Düğmelerin anahtar deliklerine monte edilmesi için üstte yeterli boşluk olduğundan emin olun [3].
2. Güç kaynağına bağlanma **
- Akıllı PDU'yu uygun bir güç kaynağına bağlayın. Güç kaynağının DGX istasyonu A100 ve Smart PDU'nun kendisinin özellikleriyle eşleştiğinden emin olun. Tipik olarak, DGX istasyonu A100, belirli akım derecelendirmeleri ile 100V ila 240V AC sağlayabilen bir güç kaynağı gerektirir [1] [7].3. Bağlantı cihazları **
- Uygun güç kablolarını kullanarak DGX İstasyonu A100'ü akıllı PDU'ya bağlayın. DGX A100 sistemleri, güvenlik ve uyumluluğu sağlamak için kilitleme güç kabloları kullanır [1].- Devam etmeden önce tüm cihazların uygun şekilde bağlandığından ve kapatıldığından emin olun.
4. Bağlantı Sensörleri **
- Akıllı PDU'nuz ek sensörleri (örn. Sıcaklık veya nem sensörleri) destekliyorsa, bunları üreticinin talimatlarına göre bağlayın. Bu sensörler optimal çalışma koşullarını izlemek ve sürdürmek için değerli çevresel veriler sağlayabilir [3].5. Akıllı PDU'yu yapılandırma **
- Giriş: Varsayılan yönetici kimlik bilgilerini (ör. Yönetici/Yönetici) kullanarak akıllı PDU'nun web arayüzüne erişin. Güvenlik için bu kimlik bilgilerini değiştirin [3].- Ağ Ayarları: Uzaktan izlemeyi etkinleştirmek için ağ ayarlarını yapılandırın. IP adresini, alt ağ maskesini, ağ geçidini ve DNS sunucularını ağ ortamınız için gerektiği şekilde ayarlayın [6].
- Kullanıcı hesapları: Yeni yönetici kullanıcı hesapları oluşturun ve gelişmiş güvenlik için varsayılan yönetici hesabını kaldırın [3].
- Sensör Adları: Mümkünse, veri kaynaklarını kolayca tanımlamak için bağlı sensörlerin adlarını yapılandırın [3].
6. Ağa Bağlanma **
- Akıllı PDU'yu ağınıza bağlayın. Bu, izleme ve yapılandırma için uzaktan erişim sağlar. Ağ bağlantısının sabit ve güvenli olduğundan emin olun [3].7. Güç Tüketimini İzleme **
- Güç tüketimini izlemek için Smart PDU'nun web arayüzünü veya IPMI araçlarını kullanın. PDU, enerji verimliliğini ve planlama kapasitesini yönetmek için çok önemli olan güç kullanımı hakkında gerçek zamanlı ve tarihsel veriler sağlayabilir [4].- Ayrıntılı enerji tüketimi metrikleri (örneğin, güç açmasından bu yana toplam enerji) için, zaman içinde verileri toplamak ve analiz etmek için Prometheus veya InfluxDB gibi harici araçları kullanmanız gerekebilir [4].
8. DGX istasyonu A100 ** ile entegrasyon
- DGX istasyonu A100'ün akıllı PDU'ya uygun şekilde bağlandığından ve kazara bağlantıları önlemek için tüm güç kablolarının güvenli bir şekilde kilitlendiğinden emin olun [1].-Gerekirse GPU'ya özgü güç tüketimini izlemek için NVIDIA DCGM veya Nvidia-Smi 'gibi araçları kullanın [4].
Bu adımları izleyerek, DGX İstasyonu A100'ünüzde güç izleme için etkili bir PDU kurarak verimli enerji yönetimi ve sistem güvenilirliği sağlayabilirsiniz.
Alıntılar:
[1] http://cdn.cnetcontent.com/2f/68/2f6888a0-063f-4d76-94e4-8666b7619dfd.pdf
[2] https://www.robusthpc.com/wp-content/uploads/2021/11/nvidia-dgx-paper_published.pdf
[3] https://cdn10.servertech.com/assets/documents/documents/137/original/301-0125-4_smart_pdu_revv.pdf?1493072227
[4] https://www.reddit.com/r/hpc/comments/1125pw7/nvidia_dgxa100_energy_monitoring/
[5] https://docs.nvidia.com/dgx/dgx
[6] https://www.ibm.com/docs/8335-gtg/p9hbf/p9hbf_configutity_isp.htm
[7] https://docs.nvidia.com/dgx/dgx
[8] https://www.youtube.com/watch?v=I6nx74lqtca