Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon 펌웨어 업데이트 프로세스 중에 DGX A100 시스템이 응답하지 않으면 어떤 단계를 수행해야합니까?


펌웨어 업데이트 프로세스 중에 DGX A100 시스템이 응답하지 않으면 어떤 단계를 수행해야합니까?


펌웨어 업데이트 프로세스 중에 DGX A100 시스템이 응답하지 않으면 다음 단계를 따라 문제를 해결하고 잠재적으로 해결하십시오.

1. Power Cycle 시스템 : 시스템이 완전히 응답하지 않고 SSH 또는 BMC 인터페이스를 통해 액세스 할 수없는 경우 Power Cycling을 사용해보십시오. 여기에는 가능한 경우 BMC (Baseboard Management Controller)를 통해 시스템을 종료하거나 모든 전원 공급 장치를 물리적으로 분리 한 다음 다시 연결하는 것이 포함됩니다. 이는 때때로 시스템이 중단 된 펌웨어 업데이트와 관련된 문제를 해결할 수 있습니다 [4].

2. BMC 로그 확인 : BMC 인터페이스를 사용하여 업데이트 중에 무엇이 잘못되었는지 표시 할 수있는 오류 메시지 또는 로그를 확인하십시오. 이는 업데이트 프로세스 중에 어떤 구성 요소가 실패했는지 또는 특정 오류가 발생했는지에 대한 단서를 제공 할 수 있습니다.

3. 네트워크 연결 확인 : 시스템에 안정적인 네트워크 연결이 있는지 확인하십시오. 때로는 네트워크 문제로 인해 업데이트가 실패하거나 중단 될 수 있습니다. 네트워크를 통해 업데이트가 수행되는 경우 시스템이 필요한 리포지토리 또는 업데이트 서버에 액세스 할 수 있는지 확인하십시오 [2].

4. 펌웨어 업데이트를 다시 평가하십시오. 전원주기 후 시스템이 반응이 빠지면 펌웨어 업데이트 프로세스를 다시 실행하십시오. NVIDIA의 지원 포털에서 사용할 수있는 최신 펌웨어 버전을 사용하고 있는지 확인하십시오 [3]. 업데이트에 PXE 부팅을 사용하는 경우 PXE 구성이 올바르고 펌웨어 업데이트 이미지가 헤드 노드에 올바르게 준비되어 있는지 확인하십시오 [3].

5. NVIDIA 지원 : 위의 단계를 시도한 후 문제가 지속되면 추가 지원을 위해 NVIDIA 지원에 연락해야 할 수도 있습니다. 그들은 당신이 경험 한 오류 메시지를 기반으로 특정 지침을 제공 할 수 있으며 추가 문제 해결 단계 나 패치가있을 수 있습니다 [3] [7].

6. 알려진 문제 확인 : DGX A100의 펌웨어 업데이트와 관련된 알려진 문제에 대한 NVIDIA의 문서를 참조하십시오. 일부 업데이트에는 일반적인 함정을 피하기 위해 따라야 할 특정 해결 방법 또는 요구 사항이있을 수 있습니다 [5].

7. 시스템 이벤트 로그 검사 :`ipmitool '과 같은 도구를 사용하여 시스템 이벤트 로그 (SEL)를 지우고 관련 오류 메시지를 검사하십시오. 이것은 문제에 기여할 수있는 하드웨어 또는 펌웨어 문제를 식별하는 데 도움이 될 수 있습니다 [4].

8. 수동 개입 : 경우에 따라 특정 구성 요소를 업데이트하려면 수동 개입이 필요할 수 있습니다. 여기에는 펌웨어 업데이트 문서에 설명 된대로 업데이트를 위해 개별 구성 요소를 타겟팅하기 위해 특정 플래그 또는 명령을 사용하는 것이 포함될 수 있습니다 [1].

이 단계를 수행하면 DGX A100 시스템의 펌웨어 업데이트와 관련된 문제를 진단하고 잠재적으로 해결할 수 있어야합니다.

인용 :
[1] https://github.com/nvidia/deepops/blob/master/docs/deepops/dgx-diagnostic-firmware.md
[2] https://docs.nvidia.com/dgx/dgxa100-user-guide/updating-restoring-sw.html
[3] https://kb.brightcomputing.com/knowledge-base/how-o upgrade-dgx-a100-firmware-from-headnode/
[4] https://forums.developer.nvidia.com/t/dgx-a100-hangs-with-jffs2-errors/296729
[5] https://docs.nvidia.com/dgx/dgxa100-fw-container-release-notes/dgxa100-fw-nken-issues.html
[6] https://github.com/nvidia/nvidia-container-runtime/issues/85
[7] https://forums.developer.nvidia.com/t/dgx-workstation-100-firmware-update-failed/317627
[8] https://cve.mitre.org/cgi-bin/cvekey.cgi