Станция NVIDIA DGX A100 предлагает надежные возможности мониторинга для удаленного управления, повышая его удобство использования и эффективность в ИИ и высокопроизводительных вычислительных средах. Вот некоторые из ключевых функций:
1. Контроллер управления основной платкой (BMC): DGX Station A100 включает в себя встроенный BMC, который обеспечивает веб-интерфейс для удаленного доступа и управления. Этот интерфейс позволяет пользователям контролировать различные компоненты системы, включая датчики температуры для графических процессоров, DIMM памяти, процессора, карты дисплея и материнской платы. Кроме того, он отслеживает скорости вентилятора, энергопотребление и напряжения системы, отображая как исторические графики, так и показания тока [1] [4].
2. Интерфейс IPMI: BMC также поддерживает IPMI (интеллектуальный интерфейс управления платформой), позволяя программному обеспечению мониторинга автоматически собирать журналы, статистику и показания датчиков без вмешательства пользователя. IPMI включает в себя интерфейс последовательной поверхности LAN (SOL), обеспечивающий доступ к последовательной консоли системы для управления настройками BIOS или установленной операционной системой [1].
3. Удаленная возможность KVM: веб-интерфейс предлагает удаленную клавиатуру, видео, мышь (KVM). Это позволяет пользователям просматривать дисплей системы и управлять им на расстоянии. Функция KVM также поддерживает виртуальное хранилище, позволяя пользователям устанавливать удаленные объемы и выполнять такие задачи, как переустановка системы, или загрузка с изображения ISO [1].
4. Консолидация сети: станция DGX A100 может консолидировать сетевые соединения с помощью интерфейса боковой полосы сетевого контроллера (NCSI), что позволяет управлять как удаленное управление, так и регулярные подключения к системной локальной сети с помощью одного падения сети. Это упрощает настройку и уменьшает количество необходимых портов [1].
5. DGX Station Manager: Хотя это не специфична только для модели A100, NVIDIA предлагает такие инструменты, как DGX Station Manager для управления ресурсами в нескольких системах DGX. Этот инструмент позволяет пользователям контролировать использование ресурсов, планировать задания и управлять разрешениями пользователей из централизованного интерфейса [10].
В целом, DGX Station A100 предоставляет комплексные возможности удаленного мониторинга и управления, что делает ее подходящей как для локальных, так и для удаленных вычислительных сред.
Цитаты:
[1] https://www.robusthpc.com/wp-content/uploads/2021/11/nvidia-dgx-station-a100-system-architecture-white-paper_published.pdf
[2] https://nvidianews.nvidia.com/news/nvidia-announces-dgx-park-and-dgx-station-personal-ai-computers
[3] https://docs.nvidia.com/dgx/pdf/dgx-station-user-guide.pdf
[4] https://docs.nvidia.com/dgx/dgx-station-a100-user-guide/security.html
[5] https://www.nvidia.com/en-us/products/workstations/dgx-station/
[6] https://docs.nvidia.com/dgx/pdf/dgx-station-a100-user-guide.pdf
[7] https://www.globenewswire.com/news-release/2020/11/16/2127366/0/en/nvidia-dgx-station-a100-researchers-ai-da-center-in-box.html
[8] https://www.pcmag.com/news/what-is-nvidias-dgx-station-a-new-precialized-desktop-line-for-ai-work
[9] https://www.compepta.com/dgxstation-a100.html
[10] https://www.serversimply.com/blog/how-to-connect-to-nvidia-dgx-cloud-advantages-configurations-and-setup-guide