Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon Apa praktik terbaik untuk menyiapkan pemantauan daya di stasiun DGX A100


Apa praktik terbaik untuk menyiapkan pemantauan daya di stasiun DGX A100


Menyiapkan pemantauan daya pada stasiun NVIDIA DGX A100 melibatkan beberapa praktik terbaik untuk memastikan pelacakan konsumsi energi yang akurat dan efisien. Berikut adalah beberapa langkah dan pertimbangan terperinci:

Memahami arsitektur kekuatan sistem

DGX Station A100 dirancang dengan kemampuan manajemen daya yang kuat, termasuk pemantauan kecepatan kipas, konsumsi daya, dan tegangan sistem. Fitur-fitur ini dapat diakses melalui antarmuka Baseboard Management Controller (BMC), yang menyediakan antarmuka pengguna berbasis web untuk memantau dan mengelola komponen sistem [7].

Memanfaatkan BMC untuk pemantauan daya

1. Mengakses BMC: BMC memungkinkan Anda memantau konsumsi daya dan metrik sistem lainnya. Anda dapat mengaksesnya melalui antarmuka web atau melalui perintah IPMI. Pastikan Anda telah mengkonfigurasi alamat IP statis untuk BMC untuk memfasilitasi akses jarak jauh [3] [7].

2. Mengkonfigurasi IPMI: Gunakan alat seperti `ipmitool` untuk mengonfigurasi dan mengambil pembacaan sensor dari BMC. Ini termasuk data konsumsi daya, yang dapat dikumpulkan secara berkala [7].

Mengimplementasikan Pengumpulan Data Seri Waktu

Untuk memantau konsumsi daya dari waktu ke waktu, Anda perlu mengumpulkan data secara berkala dan menyimpannya dalam database deret waktu. Inilah cara Anda bisa melakukannya:

1. Pengambilan sampel data daya: Gunakan skrip atau alat untuk mencicipi data konsumsi daya dari BMC atau antarmuka pemantauan lainnya pada interval yang ditetapkan (mis., Setiap menit).

2. Time Series Database: Siapkan database seri waktu seperti Prometheus atau influxdb untuk menyimpan data yang dikumpulkan. Basis data ini dioptimalkan untuk menangani data yang banyak dicap waktu secara efisien [1].

3. Visualisasi dengan Grafana: Gunakan Grafana untuk membuat dasbor yang memvisualisasikan data konsumsi daya dari waktu ke waktu. Ini memungkinkan pemantauan dan analisis pola penggunaan energi yang mudah [1].

Pertimbangan tambahan

- Manajemen jarak jauh: Manfaatkan kemampuan manajemen jarak jauh BMC, termasuk serial over LAN (SOL) dan fitur KVM, untuk mengelola sistem tanpa akses fisik [7].
- Manajemen Catu Daya: Pastikan sakelar rocker catu daya dikelola dengan benar untuk menghindari masalah daya selama operasi [8].
- Tindakan Pencegahan Keselamatan: Selalu gunakan kabel daya yang disediakan dan hindari menggunakan kabel ekstensi rumah tangga, karena mereka tidak memiliki perlindungan kelebihan beban [8].

Memantau komponen individu

Sementara BMC menyediakan data daya tingkat sistem, Anda mungkin juga ingin memantau komponen individual seperti GPU. Alat seperti NVIDIA DCGM dapat membantu mengelola dan memantau kinerja GPU dan konsumsi daya [1].

integrasi pusat data

Jika stasiun DGX A100 adalah bagian dari pengaturan pusat data yang lebih besar, pertimbangkan mengintegrasikan pemantauan daya dengan infrastruktur pusat data. Ini mungkin melibatkan bekerja dengan tim pusat data untuk mengakses data daya dari unit distribusi daya hulu (PDU) [1].

Kutipan:
[1] https://www.reddit.com/r/hpc/comments/1125pw7/nvidia_dgxa100_energy_monitoring/
[2] https://docs.nvidia.com/dgx/dgxa100-user-guide/introduction-to-dgxa100.html
[3] https://www.manualslib.com/manual/2197924/nvidia-dgx-station-a100.html
[4] http://cdn.cnetcontent.com/2f/68/2f6888a0-063f-4d76-94e4-8666b7619dfd.pdf
[5] https://docs.nvidia.com/dgx/pdf/dgxa100-user-guide.pdf
[6] https://docs.nvidia.com/dgx/pdf/best-practices-dgx.pdf
[7] https://www.robusthpc.com/wp-content/uploads/2021/11/nvidia-dgx-station-a100-system-architecture-white-paper_published.pdf
[8] https://docs.nvidia.com/dgx/pdf/dgx-station-a100-user-guide.pdf
[9] https://docs.nvidia.com/dgx/dgx-station-a100-user-guide/getting-started-station-a100.html