Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon Ką turėčiau daryti, jei programinės aparatinės įrangos atnaujinimas nepavyksta mano DGX A100


Ką turėčiau daryti, jei programinės aparatinės įrangos atnaujinimas nepavyksta mano DGX A100


Jei programinės aparatinės įrangos atnaujinimas nepavyksta jūsų „NVIDIA DGX A100“ sistemoje, galite atlikti keletą veiksmų, kuriuos galite atlikti norėdami pašalinti ir išspręsti problemą:

1. Nurodykite klaidos pranešimą: Atsargiai atkreipkite dėmesį į klaidos pranešimą, rodomą atnaujinimo proceso metu. Ši informacija gali būti labai svarbi diagnozuojant problemą. Bendros problemos apima bandymo klaidas, konfliktus su kitomis paslaugomis arba BMC prisijungimo problemas [10].

2. Patikrinkite sistemos apkrovą ir priklausomybes nuo paslaugų: įsitikinkite, kad sistemoje neveikia jokie kritiniai darbo krūviai ir kad visos būtinos paslaugos buvo sustabdytos. Tokios paslaugos kaip „DCGM-Exporter“, „NVIDIA-DCGM“ ir kitos turėtų būti sustabdytos prieš bandant atnaujinti [7].

3. Patikrinkite tinklo ryšį: įsitikinkite, kad jūsų sistema turi stabilų tinklo ryšį. Programinės aparatinės įrangos atnaujinimams dažnai reikalinga prieiga prie „NVIDIA“ viešųjų saugyklų ar įmonių palaikymo portalo [3] [4].

4. Naudokite teisingą programinės įrangos atnaujinimo metodą: programinę -aparatinę įrangą galite atnaujinti naudodami „PXE“ įkrovą iš „Headnode“ arba naudodamiesi programinės įrangos atnaujinimu ISO. Įsitikinkite, kad naudojate teisingą savo sąrankos metodą [4] [2].

5. Pakartokite atnaujinimą: Kartais tiesiog bandydami atnaujinimą galima išspręsti tokias problemas kaip „per daug pakartotinių“ klaidų. Jei susiduriate su tokiais pranešimais, pabandykite dar kartą paleisti atnaujinimo komandą [10].

6. Patikrinkite, ar nėra konfliktų su kita programine įranga: Įsitikinkite, kad nėra konfliktų su kita sistema, veikiančia sistemoje. „Docker“ ar „Podman“ gali trukdyti atnaujinimo procesui, todėl įsitikinkite, kad jie yra tinkamai valdomi [10].

7. Naudokite diagnostikos įrankius: naudokite „NVIDIA“ pateiktus diagnostikos įrankius, kad patikrintumėte sistemos sveikatą prieš ir po atnaujinimo. Tai gali padėti nustatyti visas pagrindines problemas, dėl kurių atnaujinimas gali nepavykti [7].

8. Susisiekite su „NVIDIA“ palaikymu: Jei nė vienas iš aukščiau išvardytų žingsnių neišsprendžia problemos, gali reikėti susisiekti su „NVIDIA“ palaikymu, kad gautumėte tolesnę pagalbą. Jie gali pateikti konkrečias rekomendacijas, pagrįstas jūsų sistemos konfigūracija ir matomais klaidų pranešimais [4] [9].

9. Maitinimo ciklas Sistema: kai kuriais atvejais gali prireikti maitinimo ciklo po nesėkmingo atnaujinimo. Įsitikinkite, kad atliksite tinkamas išjungimo procedūras, kad išvengtumėte duomenų praradimo ar sistemos pažeidimo [5] [7].

10. Atkurti sistemos vaizdą: Jei atnaujinimas sukėlė reikšmingų problemų, gali tekti atkurti sistemos vaizdą į pradinę būseną. Tai galima padaryti naudojant ISO failą, gautą iš „NVIDIA Enterprise“ palaikymo [3].

Atlikdami šiuos veiksmus, turėtumėte sugebėti pašalinti triktis ir išspręsti programinės įrangos atnaujinimo gedimus savo „DGX A100“ sistemoje.

Citatos:
[1] https://securityonline.info/urgent-firmware-alert-nvidia-tackles-ritical-dgx-a100-h100-flaws/
[2] https://docs.nvidia.com/dgx/dgxa100-fw-container-release-notes/
[3] https://docs.nvidia.com/dgx/dgxa100-user-guide/updating-restring-sw.html
[4] https://kb.brightcomputing.com/knowledge-baze/how-to-u-dggrade-dgx-a100-firmware-from-headnode/
[5] https://nvcrm.my.site.com/espcommunity/s/article/dgx-a100-endless-reebooting-hter-firmware-uk
[6] https://www.skyblue.de/uploads/datasheets/nvidia_twp_dgx_a100_system_architcture.pdf
[7] https://github.com/nvidia/deepops/blob/master/docs/deepops/dgx-diagnostic-firmware.md
[8] https://www.reddit.com/r/nvidia/comments/1c29hht/booting_a_dgx_a100_with_ventoy/
[9] https://forums.developer.nvidia.com/t/dgx-workStation-a100-firmware-update-failed/317627
[10] https://docs.nvidia.com/dgx/dgxa100-fw-container-release-notes/dgxa100-fw-oneward-issues.html
[11] https://nvidia.custhelp.com/app/answers/detail/a_id/5367/~/security-bulletin:-nvidia-dgx-a100-firmware---2022