Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon Aké kroky by som mal podniknúť, ak sa môj systém DGX A100 počas procesu aktualizácie firmvéru nereaguje


Aké kroky by som mal podniknúť, ak sa môj systém DGX A100 počas procesu aktualizácie firmvéru nereaguje


Ak váš systém DGX A100 počas procesu aktualizácie firmvéru nereaguje, postupujte podľa týchto krokov na riešenie problémov a potenciálne vyriešenie problému:

1. Power cyklus Systém: Ak systém úplne nereaguje a nedá sa k nim získať prostredníctvom rozhrania SSH alebo BMC, skúste ho napájanie cyklistiky. Zahŕňa to vypnutie systému prostredníctvom BMC (ovládač správy podložiek), ak je to možné, alebo fyzicky odpojenie všetkých zdrojov a potom ich zapojiť späť. Niekedy to môže vyriešiť problémy súvisiace s aktualizáciami firmvéru, ktoré spôsobili zavesenie systému [4].

2. Skontrolujte protokoly BMC: Pomocou rozhrania BMC skontrolujte všetky chybové správy alebo protokoly, ktoré by mohli naznačovať, čo sa počas aktualizácie pokazilo. To môže poskytnúť stopy o tom, ktorá komponent zlyhal alebo či sa počas procesu aktualizácie vyskytli nejaké špecifické chyby.

3. Overte pripojenie siete: Zabezpečte, aby systém mal stabilné sieťové pripojenie. Problémy siete niekedy môžu spôsobiť zlyhanie alebo zavesenie aktualizácií. Overte, či systém má prístup k potrebným úložiskám alebo aktualizovaním serverov, ak sa aktualizácia vykonávala v sieti [2].

4. Opätovný pokus o aktualizáciu firmvéru: Ak sa systém po napájanom cykle reaguje, skúste znovu spustiť proces aktualizácie firmvéru. Uistite sa, že používate najnovšiu verziu firmvéru, ktorá je k dispozícii na portáli podpory NVIDIA [3]. Ak používate PXE Boot pre aktualizácie, overte, či je konfigurácia PXE správna a či je obrázok aktualizácie firmvéru správne predstavený na hlave [3].

5. Kontaktujte podporu NVIDIA: Ak problém pretrváva po pokuse o vyššie uvedené kroky, môže byť potrebné kontaktovať podporu NVIDIA pre ďalšiu pomoc. Môžu poskytnúť konkrétne usmernenie na základe chybových správ, s ktorými sa ste sa stretli, a môžu mať k dispozícii ďalšie kroky na riešenie problémov alebo opravy [3] [7].

6. Skontrolujte známe problémy: Pozrite sa na dokumentáciu NVIDIA o známych problémoch týkajúcich sa aktualizácií firmvéru pre DGX A100. Niektoré aktualizácie môžu mať konkrétne riešenia alebo požiadavky, ktoré je potrebné dodržiavať, aby sa predišlo bežným úskaliam [5].

7. Skontrolujte protokoly systémových udalostí: Na vymažovanie protokolu systému SEL (SEL) používajte nástroje ako `ipmitool` a skontrolujte, či nie sú príslušné chybové správy. To môže pomôcť identifikovať problémy s hardvérom alebo firmvérom, ktoré by mohli prispieť k problému [4].

8. Manuálny zásah: V niektorých prípadoch môže byť potrebný manuálny zásah na aktualizáciu konkrétnych komponentov. To by mohlo zahŕňať použitie konkrétnych príznakov alebo príkazov na zacielenie jednotlivých komponentov na aktualizáciu, ako je to opísané v dokumentácii na aktualizáciu firmvéru [1].

Podľa týchto krokov by ste mali byť schopní diagnostikovať a potenciálne vyriešiť problémy súvisiace s aktualizáciami firmvéru v systéme DGX A100.

Citácie:
[1] https://github.com/nvidia/deepops/blob/master/docs/deepops/dgx-diagnostic-firmware.md
[2] https://docs.nvidia.com/dgx/dgxa100-user-guide/updating-restoring-sw.html
[3] https://kb.brightComputing.com/knowledge-base/how-to-pradgrad Gxx-a100-Firmware-from-headnode/
[4] https://forums.developer.nvidia.com/t/dgx-a100-hangs-with-jffs2-errors/296729
[5] https://docs.nvidia.com/dgx/dgxa100-fw-container-release-notes/dgxa100-fw-nonder-isesues.html
[6] https://github.com/nvidia/nvidia-container-runtime/issues/85
[7] https://forums.developer.nvidia.com/t/dgx-workstation-a100-Firmwate-pdate-failed/317627
[8] https://cve.mitre.org/cgi-bin/cvekey.cgi