펌웨어 업데이트 프로세스 중에 DGX A100 시스템이 응답하지 않으면 다음 단계를 따라 문제를 해결하고 잠재적으로 해결하십시오.
1. Power Cycle 시스템 : 시스템이 완전히 응답하지 않고 SSH 또는 BMC 인터페이스를 통해 액세스 할 수없는 경우 Power Cycling을 사용해보십시오. 여기에는 가능한 경우 BMC (Baseboard Management Controller)를 통해 시스템을 종료하거나 모든 전원 공급 장치를 물리적으로 분리 한 다음 다시 연결하는 것이 포함됩니다. 이는 때때로 시스템이 중단 된 펌웨어 업데이트와 관련된 문제를 해결할 수 있습니다 [4].
2. BMC 로그 확인 : BMC 인터페이스를 사용하여 업데이트 중에 무엇이 잘못되었는지 표시 할 수있는 오류 메시지 또는 로그를 확인하십시오. 이는 업데이트 프로세스 중에 어떤 구성 요소가 실패했는지 또는 특정 오류가 발생했는지에 대한 단서를 제공 할 수 있습니다.
3. 네트워크 연결 확인 : 시스템에 안정적인 네트워크 연결이 있는지 확인하십시오. 때로는 네트워크 문제로 인해 업데이트가 실패하거나 중단 될 수 있습니다. 네트워크를 통해 업데이트가 수행되는 경우 시스템이 필요한 리포지토리 또는 업데이트 서버에 액세스 할 수 있는지 확인하십시오 [2].
4. 펌웨어 업데이트를 다시 평가하십시오. 전원주기 후 시스템이 반응이 빠지면 펌웨어 업데이트 프로세스를 다시 실행하십시오. NVIDIA의 지원 포털에서 사용할 수있는 최신 펌웨어 버전을 사용하고 있는지 확인하십시오 [3]. 업데이트에 PXE 부팅을 사용하는 경우 PXE 구성이 올바르고 펌웨어 업데이트 이미지가 헤드 노드에 올바르게 준비되어 있는지 확인하십시오 [3].
5. NVIDIA 지원 : 위의 단계를 시도한 후 문제가 지속되면 추가 지원을 위해 NVIDIA 지원에 연락해야 할 수도 있습니다. 그들은 당신이 경험 한 오류 메시지를 기반으로 특정 지침을 제공 할 수 있으며 추가 문제 해결 단계 나 패치가있을 수 있습니다 [3] [7].
6. 알려진 문제 확인 : DGX A100의 펌웨어 업데이트와 관련된 알려진 문제에 대한 NVIDIA의 문서를 참조하십시오. 일부 업데이트에는 일반적인 함정을 피하기 위해 따라야 할 특정 해결 방법 또는 요구 사항이있을 수 있습니다 [5].
7. 시스템 이벤트 로그 검사 :`ipmitool '과 같은 도구를 사용하여 시스템 이벤트 로그 (SEL)를 지우고 관련 오류 메시지를 검사하십시오. 이것은 문제에 기여할 수있는 하드웨어 또는 펌웨어 문제를 식별하는 데 도움이 될 수 있습니다 [4].
8. 수동 개입 : 경우에 따라 특정 구성 요소를 업데이트하려면 수동 개입이 필요할 수 있습니다. 여기에는 펌웨어 업데이트 문서에 설명 된대로 업데이트를 위해 개별 구성 요소를 타겟팅하기 위해 특정 플래그 또는 명령을 사용하는 것이 포함될 수 있습니다 [1].
이 단계를 수행하면 DGX A100 시스템의 펌웨어 업데이트와 관련된 문제를 진단하고 잠재적으로 해결할 수 있어야합니다.
인용 :
[1] https://github.com/nvidia/deepops/blob/master/docs/deepops/dgx-diagnostic-firmware.md
[2] https://docs.nvidia.com/dgx/dgxa100-user-guide/updating-restoring-sw.html
[3] https://kb.brightcomputing.com/knowledge-base/how-o upgrade-dgx-a100-firmware-from-headnode/
[4] https://forums.developer.nvidia.com/t/dgx-a100-hangs-with-jffs2-errors/296729
[5] https://docs.nvidia.com/dgx/dgxa100-fw-container-release-notes/dgxa100-fw-nken-issues.html
[6] https://github.com/nvidia/nvidia-container-runtime/issues/85
[7] https://forums.developer.nvidia.com/t/dgx-workstation-100-firmware-update-failed/317627
[8] https://cve.mitre.org/cgi-bin/cvekey.cgi