Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon DGX A100でファームウェアの更新が失敗した場合はどうすればよいですか


DGX A100でファームウェアの更新が失敗した場合はどうすればよいですか


NVIDIA DGX A100システムでファームウェアの更新が失敗した場合、問題をトラブルシューティングして解決するために実行できるいくつかの手順があります。

1.エラーメッセージを特定する:更新プロセス中に表示されたエラーメッセージに注意してください。この情報は、問題を診断するために重要です。一般的な問題には、再試行エラー、他のサービスとの競合、またはBMCログインの問題が含まれます[10]。

2。システムの負荷とサービスの依存関係を確認します:システム上で重要なワークロードが実行されていないこと、および必要なすべてのサービスが停止していることを確認してください。 `dcgm-exporter`、` nvidia-dcgm`などのサービスは、更新を試みる前に停止する必要があります[7]。

3.ネットワーク接続の検証:システムに安定したネットワーク接続があることを確認します。ファームウェアの更新では、多くの場合、NVIDIAの公開リポジトリまたはエンタープライズサポートポータルにアクセスする必要があります[3] [4]。

4.正しいファームウェア更新方法を使用します。ヘッドノードからのPXEブーツを使用して、またはファームウェアアップデートISOを使用してファームウェアを更新できます。セットアップに正しい方法を使用していることを確認してください[4] [2]。

5.更新を再試行する:更新を再試行するだけで、「再試行が多すぎる」エラーなどの問題を解決できる場合があります。そのようなメッセージが発生した場合は、更新コマンドをもう一度実行してみてください[10]。

6.他のソフトウェアとの競合を確認する:システムで実行されている他のソフトウェアやサービスとの競合がないことを確認してください。 DockerまたはPodmanは更新プロセスを妨害する可能性があるため、これらが適切に管理されていることを確認してください[10]。

7.診断ツールの使用:NVIDIAが提供する診断ツールを利用して、更新の前後にシステムの健康を確認します。これは、更新が失敗する可能性のある根本的な問題を特定するのに役立ちます[7]。

8。NVIDIAサポートに連絡する:上記の手順が問題を解決しない場合、さらなる支援のためにNVIDIAサポートに連絡する必要がある場合があります。システムの構成と表示されているエラーメッセージに基づいて特定のガイダンスを提供できます[4] [9]。

9。パワーサイクルシステム:場合によっては、更新に失敗した後にパワーサイクルが必要になる場合があります。データの損失やシステムの損傷を避けるために、適切なシャットダウン手順に従って確認してください[5] [7]。

10。システムイメージを復元する:アップデートが重大な問題を引き起こした場合、システムイメージを元の状態に復元する必要があるかもしれません。これは、NVIDIAエンタープライズサポート[3]から取得したISOファイルを使用して実行できます。

これらの手順に従うことにより、DGX A100システムのファームウェアの更新障害をトラブルシューティングして解決できるはずです。

引用:
[1] https://securityonline.info/urgent-firmware-alert-nvidia-tackles-critical-dgx-a100-flaws/
[2] https://docs.nvidia.com/dgx/dgxa100-fw-container-release-notes/
[3] https://docs.nvidia.com/dgx/dgxa100-user-guide/updating-restoring-sw.html
[4] https://kb.brightcomputing.com/knowledge-base/how-to-upgrade-dgx-a100-firmware-from-headnode/
[5] https://nvcrm.my.site.com/espcommunity/s/article/dgx-a100-endless-rebooting-after-firmware-pgrade
[6] https://www.skyblue.de/uploads/datasheets/nvidia_twp_dgx_a100_system_architecture.pdf
[7] https://github.com/nvidia/deepops/blob/master/docs/deepops/dgx-diagnostic-firmware.md
[8] https://www.reddit.com/r/nvidia/comments/1c29hht/booting_a_dgx_a100_with_ventoy/
[9] https://forums.developer.nvidia.com/t/dgx-workstation-a100-firmware-cdate-failed/317627
[10] https://docs.nvidia.com/dgx/dgxa100-fw-container-release-notes/dgxa100-fw-known-issues.html
[11] https://nvidia.custhelp.com/app/answers/detail/a_id/5367/~/security-bulletin:nvidia-dgx-a100-firmware----June-2022