Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon DGX A100에서 펌웨어 업데이트가 실패하면 어떻게해야합니까?


DGX A100에서 펌웨어 업데이트가 실패하면 어떻게해야합니까?


NVIDIA DGX A100 시스템에서 펌웨어 업데이트가 실패하면 문제를 해결하고 해결하기 위해 수행 할 수있는 몇 가지 단계가 있습니다.

1. 오류 메시지를 식별하십시오. 업데이트 프로세스 중에 표시된 오류 메시지를주의 깊게 기록하십시오. 이 정보는 문제를 진단하는 데 중요 할 수 있습니다. 일반적인 문제로는 재 시도 오류, 다른 서비스와의 충돌 또는 BMC 로그인 문제가 포함됩니다 [10].

2. 시스템 부하 및 서비스 종속성 확인 : 시스템에서 중요한 워크로드가 실행되지 않고 필요한 모든 서비스가 중지되었는지 확인하십시오. `dcgm-exporter`,`nvidia-dcgm '과 같은 서비스는 업데이트를 시도하기 전에 중단되어야합니다 [7].

3. 네트워크 연결 확인 : 시스템에 안정적인 네트워크 연결이 있는지 확인하십시오. 펌웨어 업데이트는 종종 NVIDIA의 공공 저장소 또는 엔터프라이즈 지원 포털에 대한 액세스가 필요합니다 [3] [4].

4. 올바른 펌웨어 업데이트 방법 사용 방법 : 헤드 노드에서 PXE 부팅을 사용하여 펌웨어를 업데이트하거나 펌웨어 업데이트 ISO를 사용하여 펌웨어를 업데이트 할 수 있습니다. 설정에 올바른 방법을 사용하고 있는지 확인하십시오 [4] [2].

5. 업데이트를 다시 시도하십시오 : 때로는 단순히 업데이트를 다시 시도하면 "너무 많은 재시도"오류와 같은 문제를 해결할 수 있습니다. 그러한 메시지가 발생하면 업데이트 명령을 다시 실행해보십시오 [10].

6. 다른 소프트웨어와의 충돌을 확인하십시오. 시스템에서 실행되는 다른 소프트웨어 또는 서비스와 충돌이 없는지 확인하십시오. Docker 또는 Podman은 업데이트 프로세스를 방해 할 수 있으므로이를 올바르게 관리해야합니다 [10].

7. 진단 도구 사용 : NVIDIA에서 제공하는 진단 도구를 활용하여 업데이트 전후에 시스템의 건강을 확인하십시오. 이것은 업데이트가 실패하게 될 수있는 근본적인 문제를 식별하는 데 도움이 될 수 있습니다 [7].

8. 연락처 NVIDIA 지원 : 위의 단계 중 어느 것도 문제를 해결하지 않으면 추가 지원을 위해 NVIDIA 지원에 문의해야 할 수도 있습니다. 시스템 구성 및보고있는 오류 메시지를 기반으로 특정 지침을 제공 할 수 있습니다 [4] [9].

9. 전원 사이클 시스템 : 경우에 따라 업데이트가 실패한 후에 전원주기가 필요할 수 있습니다. 데이터 손실 또는 시스템 손상을 피하기 위해 적절한 종료 절차를 따르십시오 [5] [7].

10. 시스템 이미지 복원 : 업데이트가 중대한 문제를 일으킨 경우 시스템 이미지를 원래 상태로 복원해야 할 수도 있습니다. 이것은 NVIDIA Enterprise Support [3]에서 얻은 ISO 파일을 사용하여 수행 할 수 있습니다.

이 단계를 수행하면 DGX A100 시스템에서 펌웨어 업데이트 실패를 해결하고 잠재적으로 해결할 수 있어야합니다.

인용 :
[1] https://securityonline.info/urgent-firmware-alert-nvidia-tackles-critical-dgx-100-flaws/
[2] https://docs.nvidia.com/dgx/dgxa100-fw-container-release-notes/
[3] https://docs.nvidia.com/dgx/dgxa100-user-guide/updating-restoring-sw.html
[4] https://kb.brightcomputing.com/knowledge-base/how-o upgrade-dgx-a100-firmware-from-headnode/
[5] https://nvcrm.my.site.com/espcommunity/s/article/dgx-a100-endless-rebooting-fter-firmware-ugrade
[6] https://www.skyblue.de/uploads/datasheets/nvidia_twp_dgx_a100_system_architecture.pdf
[7] https://github.com/nvidia/deepops/blob/master/docs/deepops/dgx-diagnostic-firmware.md
[8] https://www.reddit.com/r/nvidia/comments/1c29hht/booting_a_dgx_a100_with_ventoy/
[9] https://forums.developer.nvidia.com/t/dgx-workstation-100-firmware-update-failed/317627
[10] https://docs.nvidia.com/dgx/dgxa100-fw-container-release-notes/dgxa100-fw-nken-issues.html
[11] https://nvidia.custhelp.com/app/answers/detail/a_id/5367/~/security-bulletin:nvidia-dgx-a100-firmware--- 6 월 2022