ファームウェアの更新プロセス中にDGX A100システムが反応しなくなった場合、次の手順に従って問題をトラブルシューティングし、潜在的に解決します。
1.パワーサイクルシステム:システムが完全に反応しておらず、SSHまたはBMCインターフェイスを介してアクセスできない場合は、電源サイクリングを試してください。これには、可能であればBMC(ベースボード管理コントローラー)を介してシステムをシャットダウンするか、すべての電源を物理的に解除してから戻します。
2。BMCログを確認します:BMCインターフェイスを使用して、アップデート中に何が問題になったかを示す可能性のあるエラーメッセージまたはログを確認します。これにより、どのコンポーネントが故障したか、または更新プロセス中に特定のエラーが発生した場合の手がかりを提供できます。
3.ネットワーク接続の検証:システムに安定したネットワーク接続があることを確認します。場合によっては、ネットワークの問題が更新が失敗したりハングアップしたりする場合があります。更新がネットワークを介して実行されている場合、システムが必要なリポジトリにアクセスしたり、サーバーを更新したりできることを確認します[2]。
4.ファームウェアの更新を再貼り付けます:パワーサイクル後にシステムがレスポンシブになった場合は、ファームウェアの更新プロセスを再実行してみてください。 Nvidiaのサポートポータル[3]から利用可能な最新のファームウェアバージョンを使用していることを確認してください。更新にPXEブートを使用する場合、PXE構成が正しいこと、およびファームウェアの更新画像がヘッドノードで適切にステージングされていることを確認します[3]。
5. NVIDIAサポートに連絡する:上記の手順を試みた後に問題が持続する場合、さらなる支援のためにNVIDIAサポートに連絡する必要がある場合があります。遭遇したエラーメッセージに基づいて特定のガイダンスを提供することができ、利用可能な追加のトラブルシューティングステップまたはパッチがある場合があります[3] [7]。
6.既知の問題については、DGX A100のファームウェア更新に関連する既知の問題に関するNVIDIAのドキュメントを参照してください。一部の更新には、一般的な落とし穴を避けるために従う必要がある特定の回避策または要件がある場合があります[5]。
7.システムイベントログを検査する:「ipmitool」などのツールを使用して、システムイベントログ(SEL)をクリアし、関連するエラーメッセージを検査します。これは、問題に貢献している可能性のあるハードウェアまたはファームウェアの問題を特定するのに役立ちます[4]。
8。手動介入:特定のコンポーネントを更新するには、手動介入が必要になる場合があります。これには、ファームウェアの更新ドキュメント[1]で説明されているように、特定のフラグまたはコマンドを使用するために個々のコンポーネントをターゲットにすることが含まれる場合があります。
これらの手順に従うことにより、DGX A100システムのファームウェアの更新に関連する問題を診断し、潜在的に解決できるはずです。
引用:
[1] https://github.com/nvidia/deepops/blob/master/docs/deepops/dgx-diagnostic-firmware.md
[2] https://docs.nvidia.com/dgx/dgxa100-user-guide/updating-restoring-sw.html
[3] https://kb.brightcomputing.com/knowledge-base/how-to-upgrade-dgx-a100-firmware-from-headnode/
[4] https://forums.developer.nvidia.com/t/dgx-a100-hangs-with-jffs2-errors/296729
[5] https://docs.nvidia.com/dgx/dgxa100-fw-container-release-notes/dgxa100-fw-nking-issues.html
[6] https://github.com/nvidia/nvidia-container-runtime/issues/85
[7] https://forums.developer.nvidia.com/t/dgx-workstation-a100-firmware-cdate-failed/317627
[8] https://cve.mitre.org/cgi-bin/cvekey.cgi