Настройка мониторинга мощности на станции NVIDIA DGX A100 включает в себя несколько лучших практик для обеспечения точного и эффективного отслеживания потребления энергии. Вот несколько подробных шагов и соображений:
Понимание энергетической архитектуры системы
Станция DGX A100 разработана с надежными возможностями управления питанием, включая мониторинг скорости вентилятора, энергопотребление и напряжения системы. Эти функции доступны через интерфейс контроллера управления базовой платой (BMC), который предоставляет веб-интерфейс пользовательского интерфейса для мониторинга и управления компонентами системы [7].Использование BMC для мониторинга питания
1. Доступ к BMC: BMC позволяет отслеживать энергопотребление и другие метрики системы. Вы можете получить к нему доступ через веб -интерфейс или через команды IPMI. Убедитесь, что вы настроили статический IP -адрес для BMC для облегчения удаленного доступа [3] [7].2. Настройка IPMI: используйте такие инструменты, как `iptimool` для настройки и извлечения показаний датчиков из BMC. Это включает данные о энергопотреблении, которые можно собирать через регулярные промежутки времени [7].
Внедрение сбора данных временных рядов
Чтобы отслеживать энергопотребление с течением времени, вам необходимо собирать данные через регулярные промежутки времени и хранить их в базе данных временных рядов. Вот как вы можете это сделать:1. Данные о мощности отбора проб: используйте сценарии или инструменты для выборки данных о энергопотреблении из BMC или других интерфейсов мониторинга с установленными интервалами (например, каждую минуту).
2. База данных временных рядов: Настройка базы данных временных рядов, такая как Prometheus или Influxdb для хранения собранных данных. Эти базы данных оптимизированы для эффективной обработки больших объемов данных о том, что они отмечены временем [1].
3. Визуализация с Grafana: используйте Grafana для создания панелей мониторинга, которые визуализируют данные о энергопотреблении с течением времени. Это позволяет легко мониторинг и анализ моделей использования энергии [1].
Дополнительные соображения
- Удаленное управление: используют возможности удаленного управления BMC, включая серийные функции LAN (SOL) и KVM, для управления системой без физического доступа [7].- Управление источником питания: убедитесь, что переключатель питания Rocker выполняется должным образом, чтобы избежать проблем с электроэнергией во время работы [8].
- Меры предосторожности: всегда используйте поставляемый силовой кабель и избегайте использования удлинительных кабелей домохозяйства, поскольку им не хватает защиты от перегрузки [8].
Мониторинг отдельных компонентов
В то время как BMC предоставляет данные о мощности системного уровня, вы также можете отслеживать отдельные компоненты, такие как графические процессоры. Такие инструменты, как NVIDIA DCGM, могут помочь управлять и контролировать производительность GPU и энергопотребление [1].Интеграция центра обработки данных
Если станция DGX A100 является частью более крупной настройки центра обработки данных, рассмотрите возможность интеграции мониторинга питания с инфраструктурой центра обработки данных. Это может включать в себя работу с командой центров обработки данных для доступа к данным питания из Upstream Power Distribution Units (PDU) [1].Цитаты:
[1] https://www.reddit.com/r/hpc/comments/1125pw7/nvidia_dgxa100_energy_monitoring/
[2] https://docs.nvidia.com/dgx/dgxa100-user-guide/introduction-to-dgxa100.html
[3] https://www.manualslib.com/manual/2197924/nvidia-dgx-station-a100.html
[4] http://cdn.cnetcontent.com/2f/68/2f6888a0-063f-4d76-94e4-8666b7619dfd.pdf
[5] https://docs.nvidia.com/dgx/pdf/dgxa100-user-guide.pdf
[6] https://docs.nvidia.com/dgx/pdf/best-practices-dgx.pdf
[7] https://www.robusthpc.com/wp-content/uploads/2021/11/nvidia-dgx-station-a100-system-architecture-white-paper_published.pdf
[8] https://docs.nvidia.com/dgx/pdf/dgx-station-a100-user-guide.pdf
[9] https://docs.nvidia.com/dgx/dgx-station-a100-user-guide/getting-started-station-a100.html