Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon Čo mám robiť, ak aktualizácia firmvéru zlyhá na mojom DGX A100


Čo mám robiť, ak aktualizácia firmvéru zlyhá na mojom DGX A100


Ak aktualizácia firmvéru zlyhá vo vašom systéme NVIDIA DGX A100, existuje niekoľko krokov, ktoré môžete podniknúť na riešenie problémov a vyriešenie problému:

1. Identifikujte chybové hlásenie: Opatrne si všimnite chybovú správu zobrazenú počas procesu aktualizácie. Tieto informácie môžu byť rozhodujúce pre diagnostikovanie problému. Bežné problémy zahŕňajú chyby pokusu, konflikty s inými službami alebo problémy s prihlásením BMC [10].

2. Skontrolujte závislosti na zaťažení systému a servisu: Uistite sa, že na systéme nie sú bežné žiadne kritické pracovné zaťaženie a že všetky potrebné služby boli zastavené. Služby ako `DCGM-Exporter`,` NVIDIA-DCGM` a ďalšie by sa mali zastaviť pred pokusom o aktualizáciu [7].

3. Overte sieťové pripojenie: Uistite sa, že váš systém má stabilné sieťové pripojenie. Aktualizácie firmvéru často vyžadujú prístup k verejným úložiskom spoločnosti NVIDIA alebo k portálu podnikovej podpory [3] [4].

4. Použite správnu metódu aktualizácie firmvéru: Firmvér môžete aktualizovať pomocou bootovania PXE z hlavy alebo pomocou ISO aktualizácie firmvéru. Uistite sa, že používate správnu metódu pre svoje nastavenie [4] [2].

5. Aktualizácia znovu portrujte: Niekedy jednoducho opakovanie aktualizácie môže vyriešiť problémy, ako napríklad chyby „príliš veľa opakovaní“. Ak narazíte na takéto správy, skúste znova spustiť príkaz aktualizácie [10].

6. Skontrolujte konflikty s iným softvérom: Uistite sa, že neexistujú žiadne konflikty s iným softvérom alebo službami, ktoré v systéme spúšťajú. Docker alebo Podman môžu zasahovať do procesu aktualizácie, takže sa uistite, že sú správne spravované [10].

7. Používajte diagnostické nástroje: Využite diagnostické nástroje poskytnuté NVIDIA na kontrolu zdravia systému pred a po aktualizácii. To môže pomôcť identifikovať všetky základné problémy, ktoré by mohli spôsobiť zlyhanie aktualizácie [7].

8. Kontaktujte podporu NVIDIA: Ak žiadny z vyššie uvedených krokov problém nevyrieši, môže byť potrebné kontaktovať podporu NVIDIA pre ďalšiu pomoc. Môžu poskytnúť konkrétne usmernenie na základe konfigurácie vášho systému a chybových správ, ktoré vidíte [4] [9].

9. Power cyklus Systém: V niektorých prípadoch by sa po neúspešnej aktualizácii mohol vyžadovať napájací cyklus. Uistite sa, že postupujete podľa správnych postupov vypnutia, aby ste predišli strate údajov alebo poškodeniu systému [5] [7].

10. Obnovte obrázok systému: Ak aktualizácia spôsobila významné problémy, možno budete musieť obnoviť obraz systému do pôvodného stavu. To sa dá dosiahnuť pomocou súboru ISO získaného z podpory NVIDIA Enterprise Support [3].

Podľa týchto krokov by ste mali byť schopní riešiť problémy a potenciálne vyriešiť zlyhania aktualizácie firmvéru v systéme DGX A100.

Citácie:
[1] https://securityonline.info/urgent-firmware-alert-nvidia-tackles-critical-dgx-a100-H100-flaws/
[2] https://docs.nvidia.com/dgx/dgxa100-fw-container-release-notes/
[3] https://docs.nvidia.com/dgx/dgxa100-user-guide/updating-restoring-sw.html
[4] https://kb.brightComputing.com/knowledge-base/how-to-pradgrad Gxx-a100-Firmware-from-headnode/
[5] https://nvcrm.my.site.com/espcommunity/s/article/dgx-a100-endless-rebooting-after-firmware upgrade
[6] https://www.skyblue.de/uploads/datasheets/nvidia_twp_dgx_a100_system_architurt.pdf
[7] https://github.com/nvidia/deepops/blob/master/docs/deepops/dgx-diagnostic-firmware.md
[8] https://www.reddit.com/r/nvidia/comments/1c29ht/booting_a_dgx_a100_with_ventoy/
[9] https://forums.developer.nvidia.com/t/dgx-workstation-a100-Firmwate-pdate-failed/317627
[10] https://docs.nvidia.com/dgx/dgxa100-fw-container-release-notes/dgxa100-fw-nonder-isesues.html
Https://nvidia.custhelp.com/app/answers/detail/a_id/5367/~/security-bulletin:-nvidia-dgx-a100-firmware ---june-2022