NVIDIA DGXステーションA100システムは、温度を超えた包括的な監視機能を提供します。 GPU、メモリディム、CPU、ディスプレイカード、マザーボードの温度監視に加えて、システムは他のいくつかの重要なコンポーネントとパフォーマンスメトリックも追跡します。これらには以下が含まれます:
- ファン速度:システムはファンの速度を監視して、最適な気流と冷却効率を確保します。これは、パフォーマンスを維持し、過熱を防ぐために重要です。
- 消費電力:消費電力の監視は、エネルギーの使用を管理し、システムが安全な制限内で動作するようにするのに役立ちます。これは、特殊な電力インフラストラクチャのないオフィス環境で使用するように設計されたシステムにとって特に重要です。
- システム電圧:安定したシステム動作を維持するには、電圧監視が不可欠です。システムのパフォーマンスや寿命に影響を与える可能性のある電圧の変動を検出するのに役立ちます。
これらの監視機能は、WebベースのユーザーインターフェイスとIPMI(インテリジェントプラットフォーム管理インターフェイス)インターフェイスを介してアクセスできます。 Webインターフェイスは、これらのメトリックの歴史的なグラフと現在の測定値を提供し、システムパフォーマンスの詳細な分析と管理を可能にします。さらに、システムは、シリアルコンソールとリモートキーボード、ビデオ、マウス(KVM)機能にアクセスするためのLAN(SOL)のシリアルを含むリモート管理機能をサポートしています[1]。
引用:
[1] https://www.robustthpc.com/wp-content/uploads/2021/11/nvidia-dgx-station-a100-system-architecture-white-paper_published.pdf
[2] https://www.horizoniq.com/blog/nvidia-a100-pecs/
[3] https://www.redbooks.ibm.com/redpapers/pdfs/redp5688.pdf
[4] https://docs.nvidia.com/dgx/dgxa100-user-guide/introduction-to-dgxa100.html
[5] https://docs.nvidia.com/dgx/pdf/dgx-station-a100-userguide.pdf
[6] https://www.pny.com/en-eu/file%20library/professional/datasheet/dgx/dgx_station_a100_datasheet_pny-web.pdf
[7] https://www.reddit.com/r/hpc/comments/1125pw7/nvidia_dgxa100_energy_monitoring/
[8] https://docs.nvidia.com/dgx/pdf/dgxa100-userguide.pdf
[9] https://www.compecta.com/dgxstation-a100.html
[10] https://nanoporetech.com/document/nvidia-dgx-station-a100-inest-and-use