Налаштування моніторингу потужності на станції NVIDIA DGX A100 передбачає декілька найкращих практик для забезпечення точного та ефективного відстеження споживання енергії. Ось кілька детальних кроків та міркувань:
Розуміння архітектури електроенергії системи
Станція DGX A100 розроблена з надійними можливостями управління живленням, включаючи моніторинг швидкостей вентилятора, споживання електроенергії та напруги системи. Ці функції доступні через інтерфейс контролера управління плінтусами (BMC), який забезпечує веб-інтерфейс користувача для моніторингу та управління компонентами системи [7].Використання BMC для моніторингу живлення
1. Доступ до BMC: BMC дозволяє стежити за споживанням електроенергії та іншими системними показниками. Ви можете отримати доступ до нього через веб -інтерфейс або через команди IPMI. Переконайтесь, що ви налаштували статичну IP -адресу для BMC для полегшення віддаленого доступу [3] [7].2. Налаштування IPMI: Використовуйте такі інструменти, як `ipmitool` для налаштування та отримання показань датчиків з BMC. Сюди входять дані про споживання електроенергії, які можна збирати через регулярні проміжки часу [7].
Впровадження збору даних часових рядів
Щоб контролювати споживання електроенергії з часом, потрібно збирати дані через регулярні проміжки часу та зберігати їх у базі даних часових рядів. Ось як ви можете це зробити:1. Дані про електроенергію вибірки: Використовуйте сценарії або інструменти для вибірки даних про споживання електроенергії з BMC або інших інтерфейсів моніторингу з встановленими інтервалами (наприклад, щохвилини).
2. База даних часових рядів: Налаштуйте базу даних часових рядів, як Prometheus або InfluxDB для зберігання зібраних даних. Ці бази даних оптимізовані для ефективної обробки великих кількостей даних, що відбиті часом [1].
3. Візуалізація з grafana: Використовуйте grafana для створення інформаційних панелей, які візуалізують дані про споживання електроенергії з часом. Це дозволяє легко моніторинг та аналізувати структури використання енергії [1].
Додаткові міркування
- Віддалене управління: Використовуйте можливості віддаленого управління BMC, включаючи послідовні функції LAN (SOL) та KVM, для управління системою без фізичного доступу [7].- Управління живленням: Переконайтесь, що вдалося належним чином вдалося уникнути проблем з живленням під час роботи [8].
- Заходи безпеки: Завжди використовуйте постачальний кабель живлення та уникайте використання кабелів для розширення домогосподарств, оскільки їм не вистачає захисту від перевантаження [8].
Моніторинг окремих компонентів
Незважаючи на те, що BMC надає дані про електроенергію на рівні системи, ви також можете контролювати окремі компоненти, такі як графічні процесори. Такі інструменти, як NVIDIA DCGM, можуть допомогти керувати та контролювати продуктивність GPU та споживання електроенергії [1].Інтеграція центру обробки даних
Якщо станція DGX A100 є частиною більшої установки центру обробки даних, розгляньте інтеграцію моніторингу потужності з інфраструктурою центру обробки даних. Це може включати роботу з командою центрів обробки даних для доступу до даних про електроенергію з підрозділів розподілу потужності (PDU) [1].Цитати:
[1] https://www.reddit.com/r/hpc/comments/1125pw7/nvidia_dgxa100_energy_monitoring/
[2] https://docs.nvidia.com/dgx/dgxa100-user-guide/introduction-to-dgxa100.html
[3] https://www.manualslib.com/manual/2197924/nvidia-dgx-station-a100.html
[4] http://cdn.cnetcontent.com/2f/68/2f6888a0-063f-4d76-94e4-8666b7619dfd.pdf
[5] https://docs.nvidia.com/dgx/pdf/dgxa100-user-guide.pdf
[6] https://docs.nvidia.com/dgx/pdf/best-practices-dgx.pdf
[7] https://www.robusthpc.com/wp-content/uploads/2021/11/nvidia-dgx-station-a100-system-architecture-white-paper_published.pdf
[8] https://docs.nvidia.com/dgx/pdf/dgx-station-a100-user-guide.pdf
[9] https://docs.nvidia.com/dgx/dgx-station-a100-user-guide/getting-started-station-a100.html