Pokud se váš systém DGX A100 během procesu aktualizace firmwaru nereaguje, postupujte podle těchto kroků k řešení problémů a potenciálně vyřešit problém:
1. Power Cycle System: Pokud systém zcela nereaguje a nelze jej přistupovat prostřednictvím rozhraní SSH nebo BMC, zkuste jej na elektřinu. To zahrnuje uzavření systému prostřednictvím BMC (Controller Management Controller), nebo fyzické odpojení všech napájecích zdrojů a poté je zapojí zpět. To může někdy vyřešit problémy související s aktualizacemi firmwaru, které způsobily zavěšení systému [4].
2. Zkontrolujte protokoly BMC: Pomocí rozhraní BMC zkontrolujte jakékoli chybové zprávy nebo protokoly, které by mohly naznačovat, co se během aktualizace pokazilo. To může poskytnout vodítka o tom, která komponenta selhala nebo zda došlo k konkrétním chybám během procesu aktualizace.
3. Ověřte síťovou připojení: Zajistěte, aby systém měl stabilní síťovou připojení. Někdy mohou problémy s síťovými problémy způsobit selhání nebo zavěšení aktualizací. Ověřte, že systém má přístup k nezbytným repozitářům nebo aktualizacím, pokud byla aktualizace prováděna v síti [2].
4. Opětovné zaútočení aktualizace firmwaru: Pokud se systém po napájecím cyklu stane reagujícím, zkuste znovu spustit proces aktualizace firmwaru. Ujistěte se, že používáte nejnovější verzi firmwaru dostupného na podpůrném portálu NVIDIA [3]. Pokud používáte PXE boot pro aktualizace, ověřte, že konfigurace PXE je správná a že obrázek aktualizace firmwaru je správně uveden na hlavě [3].
5. Kontaktujte podporu NVIDIA: Pokud problém přetrvává po pokusu o výše uvedené kroky, může být nutné kontaktovat podporu NVIDIA pro další pomoc. Mohou poskytnout konkrétní pokyny na základě chybových zpráv, se kterými jste se setkali, a mohou mít dostupné další kroky nebo záplaty odstraňování problémů [3] [7].
6. Zkontrolujte známé problémy: Viz dokumentaci NVIDIA o známých otázkách týkajících se aktualizací firmwaru pro DGX A100. Některé aktualizace mohou mít konkrétní řešení nebo požadavky, které je třeba dodržovat, aby se zabránilo běžným úskalím [5].
7. Zkontrolujte protokoly systémových událostí: Pomocí nástrojů jako `ipmitool` vyčistěte protokol systémových událostí (SEL) a zkontrolujte jej pro jakékoli relevantní chybové zprávy. To může pomoci identifikovat problémy s hardwarem nebo firmwarem, které by mohly přispět k problému [4].
8. Manuální zásah: V některých případech může být vyžadován manuální zásah k aktualizaci konkrétních komponent. To by mohlo zahrnovat použití konkrétních příznaků nebo příkazů k cílení jednotlivých komponent pro aktualizaci, jak je popsáno v dokumentaci o aktualizaci firmwaru [1].
Dodržováním těchto kroků byste měli být schopni diagnostikovat a potenciálně vyřešit problémy související s aktualizacemi firmwaru v systému DGX A100.
Citace:
[1] https://github.com/nvidia/deepops/blob/master/docs/deepops/dgx-diagnostic-firmware.md
[2] https://docs.nvidia.com/dgx/dgxa100-user-guide/updating-restoring-sw.html
[3] https://kb.brightcomputing.com/knowledge-base/how-to-ppade-Dgx-a100-firmware-from-headnode/
[4] https://forums.developer.nvidia.com/t/dgx-a100-hangs-with-jffs2-errors/296729
[5] https://docs.nvidia.com/dgx/dgxa100-fw-container-release-notes/dgxa100-fw-now-issues.html
[6] https://github.com/nvidia/nvidia-container-runtime/issues/85
[7] https://forums.developer.nvidia.com/t/dgx-workstation-a100-firmware-ate-failed/317627
[8] https://cve.mitre.org/cgi-bin/cvekey.cgi