Ak aktualizácia firmvéru zlyhá vo vašom systéme NVIDIA DGX A100, existuje niekoľko krokov, ktoré môžete podniknúť na riešenie problémov a vyriešenie problému:
1. Identifikujte chybové hlásenie: Opatrne si všimnite chybovú správu zobrazenú počas procesu aktualizácie. Tieto informácie môžu byť rozhodujúce pre diagnostikovanie problému. Bežné problémy zahŕňajú chyby pokusu, konflikty s inými službami alebo problémy s prihlásením BMC [10].
2. Skontrolujte závislosti na zaťažení systému a servisu: Uistite sa, že na systéme nie sú bežné žiadne kritické pracovné zaťaženie a že všetky potrebné služby boli zastavené. Služby ako `DCGM-Exporter`,` NVIDIA-DCGM` a ďalšie by sa mali zastaviť pred pokusom o aktualizáciu [7].
3. Overte sieťové pripojenie: Uistite sa, že váš systém má stabilné sieťové pripojenie. Aktualizácie firmvéru často vyžadujú prístup k verejným úložiskom spoločnosti NVIDIA alebo k portálu podnikovej podpory [3] [4].
4. Použite správnu metódu aktualizácie firmvéru: Firmvér môžete aktualizovať pomocou bootovania PXE z hlavy alebo pomocou ISO aktualizácie firmvéru. Uistite sa, že používate správnu metódu pre svoje nastavenie [4] [2].
5. Aktualizácia znovu portrujte: Niekedy jednoducho opakovanie aktualizácie môže vyriešiť problémy, ako napríklad chyby „príliš veľa opakovaní“. Ak narazíte na takéto správy, skúste znova spustiť príkaz aktualizácie [10].
6. Skontrolujte konflikty s iným softvérom: Uistite sa, že neexistujú žiadne konflikty s iným softvérom alebo službami, ktoré v systéme spúšťajú. Docker alebo Podman môžu zasahovať do procesu aktualizácie, takže sa uistite, že sú správne spravované [10].
7. Používajte diagnostické nástroje: Využite diagnostické nástroje poskytnuté NVIDIA na kontrolu zdravia systému pred a po aktualizácii. To môže pomôcť identifikovať všetky základné problémy, ktoré by mohli spôsobiť zlyhanie aktualizácie [7].
8. Kontaktujte podporu NVIDIA: Ak žiadny z vyššie uvedených krokov problém nevyrieši, môže byť potrebné kontaktovať podporu NVIDIA pre ďalšiu pomoc. Môžu poskytnúť konkrétne usmernenie na základe konfigurácie vášho systému a chybových správ, ktoré vidíte [4] [9].
9. Power cyklus Systém: V niektorých prípadoch by sa po neúspešnej aktualizácii mohol vyžadovať napájací cyklus. Uistite sa, že postupujete podľa správnych postupov vypnutia, aby ste predišli strate údajov alebo poškodeniu systému [5] [7].
10. Obnovte obrázok systému: Ak aktualizácia spôsobila významné problémy, možno budete musieť obnoviť obraz systému do pôvodného stavu. To sa dá dosiahnuť pomocou súboru ISO získaného z podpory NVIDIA Enterprise Support [3].
Podľa týchto krokov by ste mali byť schopní riešiť problémy a potenciálne vyriešiť zlyhania aktualizácie firmvéru v systéme DGX A100.
Citácie:
[1] https://securityonline.info/urgent-firmware-alert-nvidia-tackles-critical-dgx-a100-H100-flaws/
[2] https://docs.nvidia.com/dgx/dgxa100-fw-container-release-notes/
[3] https://docs.nvidia.com/dgx/dgxa100-user-guide/updating-restoring-sw.html
[4] https://kb.brightComputing.com/knowledge-base/how-to-pradgrad Gxx-a100-Firmware-from-headnode/
[5] https://nvcrm.my.site.com/espcommunity/s/article/dgx-a100-endless-rebooting-after-firmware upgrade
[6] https://www.skyblue.de/uploads/datasheets/nvidia_twp_dgx_a100_system_architurt.pdf
[7] https://github.com/nvidia/deepops/blob/master/docs/deepops/dgx-diagnostic-firmware.md
[8] https://www.reddit.com/r/nvidia/comments/1c29ht/booting_a_dgx_a100_with_ventoy/
[9] https://forums.developer.nvidia.com/t/dgx-workstation-a100-Firmwate-pdate-failed/317627
[10] https://docs.nvidia.com/dgx/dgxa100-fw-container-release-notes/dgxa100-fw-nonder-isesues.html
Https://nvidia.custhelp.com/app/answers/detail/a_id/5367/~/security-bulletin:-nvidia-dgx-a100-firmware ---june-2022