Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon Co mám dělat, pokud aktualizace firmwaru selže na mém DGX A100


Co mám dělat, pokud aktualizace firmwaru selže na mém DGX A100


Pokud aktualizace firmwaru selže ve vašem systému NVIDIA DGX A100, můžete podniknout několik kroků k vyřešení problémů a vyřešení problému:

1. Identifikujte chybovou zprávu: Pečlivě si všimněte chybové zprávy zobrazené během procesu aktualizace. Tyto informace mohou být zásadní pro diagnostiku problému. Mezi běžné problémy patří chyby opakování, konflikty s jinými službami nebo problémy s přihlášením BMC [10].

2. Zkontrolujte závislost zatížení systému a servisního systému: Zajistěte, aby v systému nebyly spuštěny žádná kritická pracovní zátěž a aby byly zastaveny všechny nezbytné služby. Služby jako `DCGM-Exporter`,` nvidia-dcgm` a další by měly být před pokusem o aktualizaci zastaveny [7].

3. Ověřte síťovou připojení: Zajistěte, aby váš systém měl stabilní připojení k síti. Aktualizace firmwaru často vyžadují přístup k veřejným úložitelům společnosti NVIDIA nebo portálu podpory podnikové podpory [3] [4].

4. Použijte správnou metodu aktualizace firmwaru: Firmware můžete aktualizovat pomocí bootu PXE z hlavy nebo pomocí aktualizace firmwaru ISO. Ujistěte se, že používáte správnou metodu pro nastavení [4] [2].

5. Zopakujte aktualizaci: Někdy jednoduše opakování aktualizace může vyřešit problémy, jako jsou chyby „příliš mnoho opakování“. Pokud se s těmito zprávami setkáte, zkuste znovu spustit příkaz Aktualizace [10].

6. Zkontrolujte konflikty s jiným softwarem: Ujistěte se, že v systému nedochází k konfliktům s jiným softwarem nebo službami. Docker nebo Podman by mohli zasahovat do procesu aktualizace, takže se ujistěte, že jsou správně spravovány [10].

7. Použijte diagnostické nástroje: Využijte diagnostické nástroje poskytované NVIDIA ke kontrole zdraví systému před a po aktualizaci. To může pomoci identifikovat jakékoli základní problémy, které by mohly způsobit selhání aktualizace [7].

8. Kontaktujte podporu NVIDIA: Pokud problém nevyřeší žádný z výše uvedených kroků, může být nutné kontaktovat podporu NVIDIA pro další pomoc. Mohou poskytnout konkrétní pokyny na základě konfigurace vašeho systému a chybových zpráv, které vidíte [4] [9].

9. Power Cycle System: V některých případech může být po neúspěšném aktualizaci vyžadován napájecí cyklus. Zajistěte, abyste dodržovali správné postupy vypnutí, abyste se vyhnuli ztrátě dat nebo poškození systému [5] [7].

10. Obnovte obrázek systému: Pokud aktualizace způsobila významné problémy, možná budete muset obnovit systém systému do původního stavu. To lze provést pomocí souboru ISO získaného z podpory NVIDIA Enterprise Support [3].

Dodržováním těchto kroků byste měli být schopni vyřešit a potenciálně vyřešit selhání aktualizace firmwaru ve vašem systému DGX A100.

Citace:
[1] https://securityonline.info/urgent-firmware-alert-nvidia-critical-dgx-a100-flaws/
[2] https://docs.nvidia.com/dgx/dgxa100-fw-container-release-notes/
[3] https://docs.nvidia.com/dgx/dgxa100-user-guide/updating-restoring-sw.html
[4] https://kb.brightcomputing.com/knowledge-base/how-to-ppade-Dgx-a100-firmware-from-headnode/
[5] https://nvcrm.my.site.com/espcommunity/s/article/dgx-a100-endless-rebooting-after-firmware-upgrade
[6] https://www.skyblue.de/uploads/datasheets/nvidia_twp_dgx_a100_system_architecture.pdf
[7] https://github.com/nvidia/deepops/blob/master/docs/deepops/dgx-diagnostic-firmware.md
[8] https://www.reddit.com/r/nvidia/comments/1c29hht/booting_a_dgx_a100_with_ventoy/
[9] https://forums.developer.nvidia.com/t/dgx-workstation-a100-firmware-ate-failed/317627
[10] https://docs.nvidia.com/dgx/dgxa100-fw-container-release-notes/dgxa100-fw-now-issues.html
[11] https://nvidia.custhelp.com/app/answers/detail/a_id/5367/~/security-bulletin:-nvidia-Dgx-A100-Firmware ---June-2022