NVIDIA DGX A100 시스템에서 펌웨어 업데이트가 실패하면 문제를 해결하고 해결하기 위해 수행 할 수있는 몇 가지 단계가 있습니다.
1. 오류 메시지를 식별하십시오. 업데이트 프로세스 중에 표시된 오류 메시지를주의 깊게 기록하십시오. 이 정보는 문제를 진단하는 데 중요 할 수 있습니다. 일반적인 문제로는 재 시도 오류, 다른 서비스와의 충돌 또는 BMC 로그인 문제가 포함됩니다 [10].
2. 시스템 부하 및 서비스 종속성 확인 : 시스템에서 중요한 워크로드가 실행되지 않고 필요한 모든 서비스가 중지되었는지 확인하십시오. `dcgm-exporter`,`nvidia-dcgm '과 같은 서비스는 업데이트를 시도하기 전에 중단되어야합니다 [7].
3. 네트워크 연결 확인 : 시스템에 안정적인 네트워크 연결이 있는지 확인하십시오. 펌웨어 업데이트는 종종 NVIDIA의 공공 저장소 또는 엔터프라이즈 지원 포털에 대한 액세스가 필요합니다 [3] [4].
4. 올바른 펌웨어 업데이트 방법 사용 방법 : 헤드 노드에서 PXE 부팅을 사용하여 펌웨어를 업데이트하거나 펌웨어 업데이트 ISO를 사용하여 펌웨어를 업데이트 할 수 있습니다. 설정에 올바른 방법을 사용하고 있는지 확인하십시오 [4] [2].
5. 업데이트를 다시 시도하십시오 : 때로는 단순히 업데이트를 다시 시도하면 "너무 많은 재시도"오류와 같은 문제를 해결할 수 있습니다. 그러한 메시지가 발생하면 업데이트 명령을 다시 실행해보십시오 [10].
6. 다른 소프트웨어와의 충돌을 확인하십시오. 시스템에서 실행되는 다른 소프트웨어 또는 서비스와 충돌이 없는지 확인하십시오. Docker 또는 Podman은 업데이트 프로세스를 방해 할 수 있으므로이를 올바르게 관리해야합니다 [10].
7. 진단 도구 사용 : NVIDIA에서 제공하는 진단 도구를 활용하여 업데이트 전후에 시스템의 건강을 확인하십시오. 이것은 업데이트가 실패하게 될 수있는 근본적인 문제를 식별하는 데 도움이 될 수 있습니다 [7].
8. 연락처 NVIDIA 지원 : 위의 단계 중 어느 것도 문제를 해결하지 않으면 추가 지원을 위해 NVIDIA 지원에 문의해야 할 수도 있습니다. 시스템 구성 및보고있는 오류 메시지를 기반으로 특정 지침을 제공 할 수 있습니다 [4] [9].
9. 전원 사이클 시스템 : 경우에 따라 업데이트가 실패한 후에 전원주기가 필요할 수 있습니다. 데이터 손실 또는 시스템 손상을 피하기 위해 적절한 종료 절차를 따르십시오 [5] [7].
10. 시스템 이미지 복원 : 업데이트가 중대한 문제를 일으킨 경우 시스템 이미지를 원래 상태로 복원해야 할 수도 있습니다. 이것은 NVIDIA Enterprise Support [3]에서 얻은 ISO 파일을 사용하여 수행 할 수 있습니다.
이 단계를 수행하면 DGX A100 시스템에서 펌웨어 업데이트 실패를 해결하고 잠재적으로 해결할 수 있어야합니다.
인용 :
[1] https://securityonline.info/urgent-firmware-alert-nvidia-tackles-critical-dgx-100-flaws/
[2] https://docs.nvidia.com/dgx/dgxa100-fw-container-release-notes/
[3] https://docs.nvidia.com/dgx/dgxa100-user-guide/updating-restoring-sw.html
[4] https://kb.brightcomputing.com/knowledge-base/how-o upgrade-dgx-a100-firmware-from-headnode/
[5] https://nvcrm.my.site.com/espcommunity/s/article/dgx-a100-endless-rebooting-fter-firmware-ugrade
[6] https://www.skyblue.de/uploads/datasheets/nvidia_twp_dgx_a100_system_architecture.pdf
[7] https://github.com/nvidia/deepops/blob/master/docs/deepops/dgx-diagnostic-firmware.md
[8] https://www.reddit.com/r/nvidia/comments/1c29hht/booting_a_dgx_a100_with_ventoy/
[9] https://forums.developer.nvidia.com/t/dgx-workstation-100-firmware-update-failed/317627
[10] https://docs.nvidia.com/dgx/dgxa100-fw-container-release-notes/dgxa100-fw-nken-issues.html
[11] https://nvidia.custhelp.com/app/answers/detail/a_id/5367/~/security-bulletin:nvidia-dgx-a100-firmware--- 6 월 2022