Pokud aktualizace firmwaru selže ve vašem systému NVIDIA DGX A100, můžete podniknout několik kroků k vyřešení problémů a vyřešení problému:
1. Identifikujte chybovou zprávu: Pečlivě si všimněte chybové zprávy zobrazené během procesu aktualizace. Tyto informace mohou být zásadní pro diagnostiku problému. Mezi běžné problémy patří chyby opakování, konflikty s jinými službami nebo problémy s přihlášením BMC [10].
2. Zkontrolujte závislost zatížení systému a servisního systému: Zajistěte, aby v systému nebyly spuštěny žádná kritická pracovní zátěž a aby byly zastaveny všechny nezbytné služby. Služby jako `DCGM-Exporter`,` nvidia-dcgm` a další by měly být před pokusem o aktualizaci zastaveny [7].
3. Ověřte síťovou připojení: Zajistěte, aby váš systém měl stabilní připojení k síti. Aktualizace firmwaru často vyžadují přístup k veřejným úložitelům společnosti NVIDIA nebo portálu podpory podnikové podpory [3] [4].
4. Použijte správnou metodu aktualizace firmwaru: Firmware můžete aktualizovat pomocí bootu PXE z hlavy nebo pomocí aktualizace firmwaru ISO. Ujistěte se, že používáte správnou metodu pro nastavení [4] [2].
5. Zopakujte aktualizaci: Někdy jednoduše opakování aktualizace může vyřešit problémy, jako jsou chyby „příliš mnoho opakování“. Pokud se s těmito zprávami setkáte, zkuste znovu spustit příkaz Aktualizace [10].
6. Zkontrolujte konflikty s jiným softwarem: Ujistěte se, že v systému nedochází k konfliktům s jiným softwarem nebo službami. Docker nebo Podman by mohli zasahovat do procesu aktualizace, takže se ujistěte, že jsou správně spravovány [10].
7. Použijte diagnostické nástroje: Využijte diagnostické nástroje poskytované NVIDIA ke kontrole zdraví systému před a po aktualizaci. To může pomoci identifikovat jakékoli základní problémy, které by mohly způsobit selhání aktualizace [7].
8. Kontaktujte podporu NVIDIA: Pokud problém nevyřeší žádný z výše uvedených kroků, může být nutné kontaktovat podporu NVIDIA pro další pomoc. Mohou poskytnout konkrétní pokyny na základě konfigurace vašeho systému a chybových zpráv, které vidíte [4] [9].
9. Power Cycle System: V některých případech může být po neúspěšném aktualizaci vyžadován napájecí cyklus. Zajistěte, abyste dodržovali správné postupy vypnutí, abyste se vyhnuli ztrátě dat nebo poškození systému [5] [7].
10. Obnovte obrázek systému: Pokud aktualizace způsobila významné problémy, možná budete muset obnovit systém systému do původního stavu. To lze provést pomocí souboru ISO získaného z podpory NVIDIA Enterprise Support [3].
Dodržováním těchto kroků byste měli být schopni vyřešit a potenciálně vyřešit selhání aktualizace firmwaru ve vašem systému DGX A100.
Citace:
[1] https://securityonline.info/urgent-firmware-alert-nvidia-critical-dgx-a100-flaws/
[2] https://docs.nvidia.com/dgx/dgxa100-fw-container-release-notes/
[3] https://docs.nvidia.com/dgx/dgxa100-user-guide/updating-restoring-sw.html
[4] https://kb.brightcomputing.com/knowledge-base/how-to-ppade-Dgx-a100-firmware-from-headnode/
[5] https://nvcrm.my.site.com/espcommunity/s/article/dgx-a100-endless-rebooting-after-firmware-upgrade
[6] https://www.skyblue.de/uploads/datasheets/nvidia_twp_dgx_a100_system_architecture.pdf
[7] https://github.com/nvidia/deepops/blob/master/docs/deepops/dgx-diagnostic-firmware.md
[8] https://www.reddit.com/r/nvidia/comments/1c29hht/booting_a_dgx_a100_with_ventoy/
[9] https://forums.developer.nvidia.com/t/dgx-workstation-a100-firmware-ate-failed/317627
[10] https://docs.nvidia.com/dgx/dgxa100-fw-container-release-notes/dgxa100-fw-now-issues.html
[11] https://nvidia.custhelp.com/app/answers/detail/a_id/5367/~/security-bulletin:-nvidia-Dgx-A100-Firmware ---June-2022