Če posodobitev vdelane programske opreme v sistemu NVIDIA DGX A100 ne uspe, lahko za odpravljanje težav in rešite težavo storite več korakov:
1. Opredelite sporočilo o napaki: Previdno upoštevajte sporočilo o napaki, prikazano med postopkom posodobitve. Te informacije so lahko ključne za diagnosticiranje težave. Pogosta vprašanja vključujejo napake v ponovnem poskusu, konflikte z drugimi storitvami ali težavami za prijavo na BMC [10].
2. Preverite obremenitev sistema in odvisnosti od storitev: Zagotovite, da se v sistemu ne izvaja kritična delovna obremenitev in da so bile vse potrebne storitve ustavljene. Storitve, kot so `DCGM-EXPORTER`,` NVIDIA-DCGM` in druge, je treba pred poskusom posodobitve ustaviti [7].
3. Preverite omrežno povezljivost: Prepričajte se, da ima vaš sistem stabilno omrežno povezljivost. Posodobitve vdelane programske opreme pogosto zahtevajo dostop do javnih skladišč NVIDIA ali portala za podporo podjetjih [3] [4].
4. Uporabite pravilen način posodobitve vdelane programske opreme: Vdelano programsko opremo lahko posodobite s PXE zagonom iz naslova ali z uporabo posodobitve vdelane programske opreme ISO. Prepričajte se, da uporabljate pravilno metodo za nastavitev [4] [2].
5. Ponovite posodobitev: Včasih preprosto poskuse posodobitve lahko reši težave, kot so napake "preveč poskusov". Če naletite na takšna sporočila, poskusite znova zagnati ukaz za posodobitev [10].
6. Preverite v konflikti z drugo programsko opremo: Prepričajte se, da v sistemu ni konfliktov z drugo programsko opremo ali storitvami. Docker ali Podman lahko posegata v postopek posodobitve, zato zagotovite, da se ta pravilno upravlja [10].
7. Uporabite diagnostična orodja: za preverjanje zdravja sistema pred in po posodobitvi uporabite diagnostična orodja, ki jih nudi NVIDIA. To lahko pomaga določiti morebitne osnovne težave, ki bi lahko povzročila, da posodobitev ne uspe [7].
8. Obrnite se na podporo NVIDIA: Če noben od zgornjih korakov ne reši težave, se bo morda treba obrniti na podporo NVIDIA za nadaljnjo pomoč. Na podlagi konfiguracije sistema in sporočila o napaki, ki jih vidite, lahko zagotovijo posebne smernice [4] [9].
9. Močni cikel Sistem: V nekaterih primerih bo po neuspešni posodobitvi potreben napajalni cikel. Prepričajte se, da upoštevate ustrezne postopke zaustavitve, da se izognete izgubi podatkov ali poškodbe sistema [5] [7].
10. Obnovite slikovno sliko: Če je posodobitev povzročila pomembne težave, boste morda morali povrniti sistemsko sliko v prvotno stanje. To je mogoče storiti z datoteko ISO, pridobljene iz podpore NVIDIA Enterprise [3].
Če sledite tem korakom, bi morali odpraviti težave in potencialno rešiti napake posodobitve vdelane programske opreme v sistemu DGX A100.
Navedbe:
[1] https://securityonline.info/urgent-firtware-alert-nvidia-tacles-critical-dgx-a100-h100-flaws/
[2] https://docs.nvidia.com/dgx/dgxa100-fw-canner-release-notes/
[3] https://docs.nvidia.com/dgx/dgxa100-user-guide/updating-restoring-sw.html
[4] https://kb.brightcomputing.com/knowledge-base/how-to-pagrade-dgx-a100-firmware-from-headdrode/
[5] https://nvcrm.my.site.com/espcommunity/s/article/dgx-a100-endless-rebooting-after-firmware-Upgrade
[6] https://www.skyblue.de/uploads/datasheets/nvidia_twp_dgx_a100_system_architecture.pdf
[7] https://github.com/nvidia/deepops/blob/master/docs/deepOps/dgx-diagnostic-firmware.md
[8] https://www.reddit.com/r/nvidia/comments/1c29hht/booting_a_dgx_a100_with_ventoy/
[9] https://forums.developer.nvidia.com/t/dgx-workstation-a100-firmware-paildate-failed/317627
[10] https://docs.nvidia.com/dgx/dgxa100-fw-canner-release-notes/dgxa100-fw-iln-issues.html
[11] https://nvidia.custhelp.com/app/answers/detail/a_id/5367/~/security-bulletin:-nvidia-dgx-a100-firmware--june-2022