Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon Kādas darbības man jāveic, ja mana DGX A100 sistēma programmaparatūras atjaunināšanas procesā kļūst nereaģējoša


Kādas darbības man jāveic, ja mana DGX A100 sistēma programmaparatūras atjaunināšanas procesā kļūst nereaģējoša


Ja jūsu DGX A100 sistēma programmaparatūras atjaunināšanas laikā kļūst nereaģējoša, veiciet šīs darbības, lai novērstu problēmu un, iespējams, atrisinātu problēmu:

1. Strāvas cikls Sistēma: ja sistēma pilnībā nereaģē un tai var piekļūt, izmantojot SSH vai BMC interfeisu, mēģiniet to ciklot. Tas ietver sistēmas slēgšanu caur BMC (pamatnes pārvaldības kontrolieri), ja iespējams, vai fiziski atvieno visus barošanas avotus un pēc tam tos iesprauž atpakaļ. Tas dažreiz var atrisināt problēmas, kas saistītas ar programmaparatūras atjauninājumiem, kas ir izraisījuši sistēmas pakarināšanos [4].

2. Pārbaudiet BMC žurnālus: izmantojiet BMC interfeisu, lai pārbaudītu, vai nav kļūdu ziņojumu vai žurnālu, kas varētu norādīt, kas atjaunināšanas laikā notika nepareizi. Tas var sniegt norādes par to, kurš komponents neizdevās, vai ja atjaunināšanas procesā bija kādas īpašas kļūdas.

3. Pārbaudiet tīkla savienojamību: pārliecinieties, vai sistēmai ir stabila tīkla savienojamība. Dažreiz tīkla problēmas var izraisīt atjauninājumu neveiksmi vai pakārtšanos. Pārbaudiet, vai sistēma var piekļūt nepieciešamajām krātuvēm vai atjaunināt serverus, ja atjauninājums tiek veikts tīklā [2].

4. Pārkārtojiet programmaparatūras atjauninājumu: ja sistēma pēc enerģijas cikla kļūst atsaucīga, mēģiniet atkārtoti palaist programmaparatūras atjaunināšanas procesu. Pārliecinieties, ka izmantojat jaunāko programmaparatūras versiju, kas pieejama NVIDIA atbalsta portālā [3]. Ja atjauninājumiem tiek izmantots PXE sāknēšana, pārbaudiet, vai PXE konfigurācija ir pareiza un vai programmaparatūras atjaunināšanas attēls ir pareizi iestudēts uz galda [3].

5. Sazinieties ar NVIDIA atbalstu: ja jautājums joprojām pastāv pēc iepriekšminēto darbību mēģinājumiem, var būt nepieciešams sazināties ar NVIDIA atbalstu, lai saņemtu turpmāku palīdzību. Tie var sniegt īpašus norādījumus, pamatojoties uz jūsu saskārušās kļūdu ziņojumiem, un, iespējams, ir pieejamas papildu traucējummeklēšanas darbības vai ielāpi [3] [7].

6. Pārbaudiet, vai nav zināmu problēmu: skatiet Nvidia dokumentāciju par zināmajiem jautājumiem, kas saistīti ar DGX A100 programmaparatūras atjauninājumiem. Dažiem atjauninājumiem var būt īpaši risinājumi vai prasības, kas jāievēro, lai izvairītos no kopīgām nepilnībām [5].

7. Pārbaudiet sistēmas notikumu žurnālus: izmantojiet tādus rīkus kā `ipmitool`, lai notīrītu sistēmas notikumu žurnālu (SEL) un pārbaudiet, vai nav attiecīgu kļūdu ziņojumu. Tas var palīdzēt identificēt aparatūras vai programmaparatūras problēmas, kas varētu būt saistītas ar problēmu [4].

8. Manāla iejaukšanās: dažos gadījumos var būt nepieciešama manuāla iejaukšanās, lai atjauninātu īpašas sastāvdaļas. Tas var ietvert konkrētu karodziņu vai komandu izmantošanu, lai mērķētu uz atsevišķiem komponentiem atjaunināšanai, kā aprakstīts programmaparatūras atjaunināšanas dokumentācijā [1].

Veicot šīs darbības, jums vajadzētu būt iespējai diagnosticēt un potenciāli atrisināt problēmas, kas saistītas ar programmaparatūras atjauninājumiem jūsu DGX A100 sistēmā.

Atsauces:
[1] https://github.com/nvidia/deepops/blob/master/docs/deepops/dgx-diagnostic-firmware.md
[2] https://docs.nvidia.com/dgx/dgxa100-user-guide/updating-restoring-sw.html
[3] https://kb.brightcomputing.com/knowledk
[4] https://forums.developer.nvidia.com/t/dgx-a100-hangs-with-jffs2-errors/296729
[5] https://docs.nvidia.com/dgx/dgxa100-fw-container-release-notes/dgxa100-fw-knowl-isues.html
[6] https://github.com/nvidia/nvidia-container-runtime/issues/85
[7] https://forums.developer.nvidia.com/t/dgx-workstation-a100-firmware-wdate-failed/317627
[8] https://cve.mitre.org/cgi-bin/cvekey.cgi