Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon Kaj naj storim, če posodobitev vdelane programske opreme ne uspe na mojem DGX A100


Kaj naj storim, če posodobitev vdelane programske opreme ne uspe na mojem DGX A100


Če posodobitev vdelane programske opreme v sistemu NVIDIA DGX A100 ne uspe, lahko za odpravljanje težav in rešite težavo storite več korakov:

1. Opredelite sporočilo o napaki: Previdno upoštevajte sporočilo o napaki, prikazano med postopkom posodobitve. Te informacije so lahko ključne za diagnosticiranje težave. Pogosta vprašanja vključujejo napake v ponovnem poskusu, konflikte z drugimi storitvami ali težavami za prijavo na BMC [10].

2. Preverite obremenitev sistema in odvisnosti od storitev: Zagotovite, da se v sistemu ne izvaja kritična delovna obremenitev in da so bile vse potrebne storitve ustavljene. Storitve, kot so `DCGM-EXPORTER`,` NVIDIA-DCGM` in druge, je treba pred poskusom posodobitve ustaviti [7].

3. Preverite omrežno povezljivost: Prepričajte se, da ima vaš sistem stabilno omrežno povezljivost. Posodobitve vdelane programske opreme pogosto zahtevajo dostop do javnih skladišč NVIDIA ali portala za podporo podjetjih [3] [4].

4. Uporabite pravilen način posodobitve vdelane programske opreme: Vdelano programsko opremo lahko posodobite s PXE zagonom iz naslova ali z uporabo posodobitve vdelane programske opreme ISO. Prepričajte se, da uporabljate pravilno metodo za nastavitev [4] [2].

5. Ponovite posodobitev: Včasih preprosto poskuse posodobitve lahko reši težave, kot so napake "preveč poskusov". Če naletite na takšna sporočila, poskusite znova zagnati ukaz za posodobitev [10].

6. Preverite v konflikti z drugo programsko opremo: Prepričajte se, da v sistemu ni konfliktov z drugo programsko opremo ali storitvami. Docker ali Podman lahko posegata v postopek posodobitve, zato zagotovite, da se ta pravilno upravlja [10].

7. Uporabite diagnostična orodja: za preverjanje zdravja sistema pred in po posodobitvi uporabite diagnostična orodja, ki jih nudi NVIDIA. To lahko pomaga določiti morebitne osnovne težave, ki bi lahko povzročila, da posodobitev ne uspe [7].

8. Obrnite se na podporo NVIDIA: Če noben od zgornjih korakov ne reši težave, se bo morda treba obrniti na podporo NVIDIA za nadaljnjo pomoč. Na podlagi konfiguracije sistema in sporočila o napaki, ki jih vidite, lahko zagotovijo posebne smernice [4] [9].

9. Močni cikel Sistem: V nekaterih primerih bo po neuspešni posodobitvi potreben napajalni cikel. Prepričajte se, da upoštevate ustrezne postopke zaustavitve, da se izognete izgubi podatkov ali poškodbe sistema [5] [7].

10. Obnovite slikovno sliko: Če je posodobitev povzročila pomembne težave, boste morda morali povrniti sistemsko sliko v prvotno stanje. To je mogoče storiti z datoteko ISO, pridobljene iz podpore NVIDIA Enterprise [3].

Če sledite tem korakom, bi morali odpraviti težave in potencialno rešiti napake posodobitve vdelane programske opreme v sistemu DGX A100.

Navedbe:
[1] https://securityonline.info/urgent-firtware-alert-nvidia-tacles-critical-dgx-a100-h100-flaws/
[2] https://docs.nvidia.com/dgx/dgxa100-fw-canner-release-notes/
[3] https://docs.nvidia.com/dgx/dgxa100-user-guide/updating-restoring-sw.html
[4] https://kb.brightcomputing.com/knowledge-base/how-to-pagrade-dgx-a100-firmware-from-headdrode/
[5] https://nvcrm.my.site.com/espcommunity/s/article/dgx-a100-endless-rebooting-after-firmware-Upgrade
[6] https://www.skyblue.de/uploads/datasheets/nvidia_twp_dgx_a100_system_architecture.pdf
[7] https://github.com/nvidia/deepops/blob/master/docs/deepOps/dgx-diagnostic-firmware.md
[8] https://www.reddit.com/r/nvidia/comments/1c29hht/booting_a_dgx_a100_with_ventoy/
[9] https://forums.developer.nvidia.com/t/dgx-workstation-a100-firmware-paildate-failed/317627
[10] https://docs.nvidia.com/dgx/dgxa100-fw-canner-release-notes/dgxa100-fw-iln-issues.html
[11] https://nvidia.custhelp.com/app/answers/detail/a_id/5367/~/security-bulletin:-nvidia-dgx-a100-firmware--june-2022