Ja programmaparatūras atjauninājums neizdodas jūsu NVIDIA DGX A100 sistēmā, ir vairākas darbības, kuras varat veikt, lai novērstu un atrisinātu problēmu:
1. Nosakiet kļūdas ziņojumu: uzmanīgi ņemiet vērā kļūdas ziņojumu, kas parādīts atjaunināšanas procesā. Šai informācijai var būt izšķiroša nozīme, diagnosticējot problēmu. Bieži sastopamas problēmas ir atkārtotas kļūdas, konflikti ar citiem pakalpojumiem vai BMC pieteikšanās jautājumi [10].
2. Pārbaudes sistēmas slodze un pakalpojumu atkarības: pārliecinieties, vai sistēmā nav kritiskas darba slodzes un vai visi nepieciešamie pakalpojumi ir apturēti. Pakalpojumi, piemēram, "DCGM-Exporter", "NVIDIA-DCGM", un citi pirms atjaunināšanas mēģinājuma jāaptur [7].
3. Pārbaudiet tīkla savienojamību: pārliecinieties, vai jūsu sistēmai ir stabila tīkla savienojamība. Programmaparatūras atjauninājumiem bieži nepieciešama piekļuve NVIDIA publiskajām krātuvēm vai uzņēmuma atbalsta portālam [3] [4].
4. Izmantojiet pareizo programmaparatūras atjaunināšanas metodi: varat atjaunināt programmaparatūru, izmantojot PXE sāknēšanu no HeadNode vai izmantojot programmaparatūras atjauninājumu ISO. Pārliecinieties, ka savai iestatīšanai izmantojat pareizo metodi [4] [2].
5. Atjaunināt atjauninājumu: Dažreiz vienkārši atkārtota atjaunināšana var atrisināt tādas problēmas kā "pārāk daudz atkārtojumu" kļūdas. Ja sastopaties ar šādiem ziņojumiem, mēģiniet vēlreiz palaist atjaunināšanas komandu [10].
6. Pārbaudiet, vai nav konfliktu ar citu programmatūru: pārliecinieties, vai nav konfliktu ar citu programmatūru vai pakalpojumiem, kas darbojas sistēmā. Docker vai Podman varētu traucēt atjaunināšanas procesu, tāpēc pārliecinieties, vai tie tiek pareizi pārvaldīti [10].
7. Izmantojiet diagnostikas rīkus: izmantojiet NVIDIA nodrošinātos diagnostikas rīkus, lai pārbaudītu sistēmas veselību pirms un pēc atjaunināšanas. Tas var palīdzēt identificēt visas pamatā esošās problēmas, kas varētu izraisīt atjauninājumu neveiksmi [7].
8. Sazinieties ar NVIDIA atbalstu: ja neviena no iepriekšminētajām darbībām atrisina problēmu, var būt nepieciešams sazināties ar NVIDIA atbalstu, lai saņemtu turpmāku palīdzību. Tie var sniegt īpašus norādījumus, pamatojoties uz jūsu sistēmas konfigurāciju un redzamajiem kļūdu ziņojumiem [4] [9].
9. Jaudas cikls Sistēma: dažos gadījumos pēc neveiksmīgas atjaunināšanas varētu būt nepieciešams enerģijas cikls. Pārliecinieties, ka ievērojat pareizas izslēgšanas procedūras, lai izvairītos no datu zudumiem vai sistēmas bojājumiem [5] [7].
10. Atjaunojiet sistēmas attēlu: ja atjauninājums ir radījis ievērojamas problēmas, jums, iespējams, būs jāatjauno sistēmas attēls sākotnējā stāvoklī. To var izdarīt, izmantojot ISO failu, kas iegūts no NVIDIA Enterprise atbalsta [3].
Veicot šīs darbības, jums vajadzētu būt iespējai novērst un potenciāli atrisināt programmaparatūras atjaunināšanas kļūmes jūsu DGX A100 sistēmā.
Atsauces:
[1.]
[2] https://docs.nvidia.com/dgx/dgxa100-fw-container-release-notes/
[3] https://docs.nvidia.com/dgx/dgxa100-user-guide/updating-restoring-sw.html
[4] https://kb.brightcomputing.com/knowledk
[5] https://nvcrm.my.site.com/espcommunity/s/article/dgx-a100-endless-rebooting-fter-firmware-wgrade
[6] https://www.skyblue.de/uploads/dataSheets/nvidia_twp_dgx_a100_system_architecture.pdf
[7] https://github.com/nvidia/deepops/blob/master/docs/deepops/dgx-diagnostic-firmware.md
[8] https://www.reddit.com/r/nvidia/comments/1c29hht/booting_a_dgx_a100_with_ventoy/
[9] https://forums.developer.nvidia.com/t/dgx-workstation-a100-firmware-wdate-failed/317627
[10] https://docs.nvidia.com/dgx/dgxa100-fw-container-release-notes/dgxa100-fw-knowl-isues.html
[11] https://nvidia.custhelp.com/app/answers/detail/a_id/5367/~/security-bulletin:-nvidia-dgx-a100-firmware-jūnijs-2022