Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon Jaké kroky bych měl podniknout, pokud se můj systém DGX A100 během procesu aktualizace firmwaru nereaguje


Jaké kroky bych měl podniknout, pokud se můj systém DGX A100 během procesu aktualizace firmwaru nereaguje


Pokud se váš systém DGX A100 během procesu aktualizace firmwaru nereaguje, postupujte podle těchto kroků k řešení problémů a potenciálně vyřešit problém:

1. Power Cycle System: Pokud systém zcela nereaguje a nelze jej přistupovat prostřednictvím rozhraní SSH nebo BMC, zkuste jej na elektřinu. To zahrnuje uzavření systému prostřednictvím BMC (Controller Management Controller), nebo fyzické odpojení všech napájecích zdrojů a poté je zapojí zpět. To může někdy vyřešit problémy související s aktualizacemi firmwaru, které způsobily zavěšení systému [4].

2. Zkontrolujte protokoly BMC: Pomocí rozhraní BMC zkontrolujte jakékoli chybové zprávy nebo protokoly, které by mohly naznačovat, co se během aktualizace pokazilo. To může poskytnout vodítka o tom, která komponenta selhala nebo zda došlo k konkrétním chybám během procesu aktualizace.

3. Ověřte síťovou připojení: Zajistěte, aby systém měl stabilní síťovou připojení. Někdy mohou problémy s síťovými problémy způsobit selhání nebo zavěšení aktualizací. Ověřte, že systém má přístup k nezbytným repozitářům nebo aktualizacím, pokud byla aktualizace prováděna v síti [2].

4. Opětovné zaútočení aktualizace firmwaru: Pokud se systém po napájecím cyklu stane reagujícím, zkuste znovu spustit proces aktualizace firmwaru. Ujistěte se, že používáte nejnovější verzi firmwaru dostupného na podpůrném portálu NVIDIA [3]. Pokud používáte PXE boot pro aktualizace, ověřte, že konfigurace PXE je správná a že obrázek aktualizace firmwaru je správně uveden na hlavě [3].

5. Kontaktujte podporu NVIDIA: Pokud problém přetrvává po pokusu o výše uvedené kroky, může být nutné kontaktovat podporu NVIDIA pro další pomoc. Mohou poskytnout konkrétní pokyny na základě chybových zpráv, se kterými jste se setkali, a mohou mít dostupné další kroky nebo záplaty odstraňování problémů [3] [7].

6. Zkontrolujte známé problémy: Viz dokumentaci NVIDIA o známých otázkách týkajících se aktualizací firmwaru pro DGX A100. Některé aktualizace mohou mít konkrétní řešení nebo požadavky, které je třeba dodržovat, aby se zabránilo běžným úskalím [5].

7. Zkontrolujte protokoly systémových událostí: Pomocí nástrojů jako `ipmitool` vyčistěte protokol systémových událostí (SEL) a zkontrolujte jej pro jakékoli relevantní chybové zprávy. To může pomoci identifikovat problémy s hardwarem nebo firmwarem, které by mohly přispět k problému [4].

8. Manuální zásah: V některých případech může být vyžadován manuální zásah k aktualizaci konkrétních komponent. To by mohlo zahrnovat použití konkrétních příznaků nebo příkazů k cílení jednotlivých komponent pro aktualizaci, jak je popsáno v dokumentaci o aktualizaci firmwaru [1].

Dodržováním těchto kroků byste měli být schopni diagnostikovat a potenciálně vyřešit problémy související s aktualizacemi firmwaru v systému DGX A100.

Citace:
[1] https://github.com/nvidia/deepops/blob/master/docs/deepops/dgx-diagnostic-firmware.md
[2] https://docs.nvidia.com/dgx/dgxa100-user-guide/updating-restoring-sw.html
[3] https://kb.brightcomputing.com/knowledge-base/how-to-ppade-Dgx-a100-firmware-from-headnode/
[4] https://forums.developer.nvidia.com/t/dgx-a100-hangs-with-jffs2-errors/296729
[5] https://docs.nvidia.com/dgx/dgxa100-fw-container-release-notes/dgxa100-fw-now-issues.html
[6] https://github.com/nvidia/nvidia-container-runtime/issues/85
[7] https://forums.developer.nvidia.com/t/dgx-workstation-a100-firmware-ate-failed/317627
[8] https://cve.mitre.org/cgi-bin/cvekey.cgi