Jei jūsų „DGX A100“ sistema nereaguoja į programinės įrangos atnaujinimo procesą, atlikite šiuos veiksmus, kad pašalintumėte triktis ir potencialiai išspręstumėte problemą:
1. Maitinimo ciklas Sistema: jei sistema visiškai nereaguoja ir negalima pasiekti per SSH ar BMC sąsają, išbandykite „Power Cycling“. Tai apima sistemos išjungimą per BMC (grindjuostės valdymo valdiklį), jei įmanoma, arba fiziškai atjungti visus maitinimo šaltinius ir jas prijungti atgal. Tai kartais gali išspręsti problemas, susijusias su programinės įrangos atnaujinimais, dėl kurių sistema pakabino [4].
2. Patikrinkite BMC žurnalus: naudokite BMC sąsają, kad patikrintumėte, ar nėra klaidų pranešimų ar žurnalų, kurie gali parodyti, kas nutiko atnaujinimo metu. Tai gali pateikti užuominų apie tai, kuris komponentas nepavyko, ar buvo kokių nors konkrečių klaidų, susijusių su atnaujinimo proceso metu.
3. Patikrinkite tinklo ryšį: įsitikinkite, kad sistema turi stabilų tinklo ryšį. Kartais dėl tinklo problemų atnaujinimai gali sugesti ar pakabinti. Patikrinkite, ar sistema gali pasiekti būtinas saugyklas arba atnaujinti serverius, jei atnaujinimas buvo atliktas per tinklą [2].
4. Atnaujinkite programinės aparatinės įrangos atnaujinimą: Jei sistema reaguoja po maitinimo ciklo, pabandykite iš naujo paleisti programinės įrangos atnaujinimo procesą. Įsitikinkite, kad naudojate naujausią programinės įrangos versiją, kurią galite rasti „NVIDIA“ palaikymo portale [3]. Jei atnaujinimams naudojate „PXE Boot“, patikrinkite, ar PXE konfigūracija yra teisinga ir kad „Headnode“ tinkamai pastatytas programinės įrangos atnaujinimo vaizdas [3].
5. Susisiekite su „NVIDIA“ palaikymu: jei klausimas išlieka bandant aukščiau pateiktus veiksmus, gali reikėti susisiekti su „NVIDIA“ palaikymu, kad gautumėte tolesnę pagalbą. Jie gali pateikti konkrečias rekomendacijas, pagrįstas klaidų pranešimais, su kuriais susidūrėte, ir gali turėti papildomų trikčių šalinimo veiksmų ar turimų pataisų [3] [7].
6. Patikrinkite, ar nėra žinomų problemų: skaitykite NVIDIA dokumentaciją žinomomis problemomis, susijusiomis su DGX A100 programinės įrangos atnaujinimais. Kai kuriuose atnaujinimuose gali būti taikomi konkretūs sprendimai ar reikalavimai, kurių reikia laikytis siekiant išvengti bendrų spąstų [5].
7. Patikrinkite sistemos įvykių žurnalus: Norėdami išvalyti sistemos įvykių žurnalą (SEL), naudokite tokius įrankius kaip „IPMITOOL“ ir apžiūrėkite, ar nėra jokių atitinkamų klaidų pranešimų. Tai gali padėti nustatyti aparatinės įrangos ar programinės įrangos problemas, kurios gali prisidėti prie problemos [4].
8. Rankinė intervencija: kai kuriais atvejais gali prireikti rankinės intervencijos, norint atnaujinti konkrečius komponentus. Tai gali apimti konkrečių vėliavų ar komandų naudojimą, norint nukreipti atskirus komponentus atnaujinti, kaip aprašyta programinės įrangos atnaujinimo dokumentuose [1].
Atlikdami šiuos veiksmus, turėtumėte sugebėti diagnozuoti ir išspręsti problemas, susijusias su programinės įrangos atnaujinimais jūsų „DGX A100“ sistemoje.
Citatos:
[1] https://github.com/nvidia/deepops/blob/master/docs/deepops/dgx-diagnostic-firmware.md
[2] https://docs.nvidia.com/dgx/dgxa100-user-guide/updating-restring-sw.html
[3] https://kb.brightcomputing.com/knowledge-baze/how-to-utu-upgrade-dgx-a100-firmware-from-headnode/
[4] https://forums.developer.nvidia.com/t/dgx-a100-hangs-with-jffs2-errors/296729
[5] https://docs.nvidia.com/dgx/dgxa100-fw-container-release-notes/dgxa100-fw-nown-issues.html
[6] https://github.com/nvidia/nvidia-container-runtime/issues/85
[7] https://forums.developer.nvidia.com/t/dgx-workStation-a100-firmware-update-failed/317627
[8] https://cve.mitre.org/cgi-bin/cveKey.cgi