Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon Kakšne korake naj storim, če se moj sistem DGX A100 med postopkom posodobitve vdelane programske opreme ne odziva


Kakšne korake naj storim, če se moj sistem DGX A100 med postopkom posodobitve vdelane programske opreme ne odziva


Če vaš sistem DGX A100 med postopkom posodabljanja vdelane programske opreme postane odziven, sledite tem korakom za odpravljanje težav in potencialno reševanje težave:

1. Power Cycle Sistem: Če je sistem popolnoma odziven in do njega ni mogoče dostopati prek SSH ali vmesnika BMC, poskusite s kolesarjenjem. To vključuje izklop sistema prek BMC (krmilnik za upravljanje baze), če je mogoče, ali fizično izklopite vse napajalne napajalnike in jih nato priklopite. To lahko včasih reši težave, povezane s posodobitvami vdelane programske opreme, ki so povzročile obešanje sistema [4].

2. Preverite dnevnike BMC: Uporabite vmesnik BMC, da preverite kakršna koli sporočila ali dnevnike napak, ki lahko kažejo, kaj je šlo narobe med posodobitvijo. To lahko daje namige o tem, katera komponenta ni uspela ali če so se med postopkom posodobitve pojavile posebne napake.

3. Preverite omrežno povezljivost: zagotovite, da ima sistem stabilno omrežno povezljivost. Včasih lahko težave omrežja povzročijo, da posodobitve ne uspejo ali visijo. Preverite, ali lahko sistem dostopa do potrebnih skladišč ali posodobitve strežnikov, če je bila posodobitev izvedena po omrežju [2].

4. Ponovno preverite posodobitev vdelane programske opreme: Če sistem postane odziven po ciklu moči, poskusite znova zagnati postopek posodobitve vdelane programske opreme. Prepričajte se, da uporabljate najnovejšo različico vdelane programske opreme, ki je na voljo na podpornem portalu NVIDIA [3]. Če uporabljate PXE Boot za posodobitve, preverite, ali je konfiguracija PXE pravilna in da je slika posodobitve vdelane programske opreme pravilno uprizorjena na naslovu [3].

5. Obrnite se na podporo NVIDIA: Če težava traja po poskusu zgornjih korakov, se bo morda treba obrniti na podporo NVIDIA za nadaljnjo pomoč. Na podlagi sporočil, ki ste jih srečali, lahko zagotovijo posebne smernice in imajo na voljo dodatne korake ali popravke za odpravljanje težav [3] [7].

6. Preverite znane težave: glejte dokumentacijo NVIDIA o znanih vprašanjih, povezanih s posodobitvami vdelane programske opreme za DGX A100. Nekatere posodobitve imajo lahko posebne rešitve ali zahteve, ki jih je treba upoštevati, da se izognete skupnim pasti [5].

7. Oglejte si dnevnike sistema dogodkov: Uporabite orodja, kot je `ipmimiol`, da očistite dnevnik sistemskih dogodkov (SEL) in ga pregledate glede ustreznih sporočil o napakah. To lahko pomaga prepoznati težave s strojno opremo ali vdelano programsko opremo, ki bi lahko prispevale k težavi [4].

8. ročni poseg: V nekaterih primerih bo za posodobitev določenih komponent morda potrebna ročna intervencija. To lahko vključuje uporabo določenih zastav ali ukazov za ciljanje na posamezne komponente za posodobitev, kot je opisano v dokumentaciji za posodobitev vdelane programske opreme [1].

Če sledite tem korakom, bi morali v sistemu DGX A100 diagnosticirati in potencialno rešiti težave, povezane s posodobitvami vdelane programske opreme.

Navedbe:
[1] https://github.com/nvidia/deepops/blob/master/docs/deepops/dgx-diagnostic-firmware.md
[2] https://docs.nvidia.com/dgx/dgxa100-user-guide/updating-restoring-sw.html
[3] https://kb.brightcomputing.com/knowledge-base/how-to-pagrade-dgx-a100-firmware-from-headdrode/
[4] https://forums.developer.nvidia.com/t/dgx-a100-hangs-with-jffs2-errors/296729
[5] https://docs.nvidia.com/dgx/dgxa100-fw-cannener-release-notes/dgxa100fw-alend-issues.html
[6] https://github.com/nvidia/nvidia-container-runtime/isissue/85
[7] https://forums.developer.nvidia.com/t/dgx-workstation-a100-firmware-paildate-failed/317627
[8] https://cve.mitre.org/cgi-bin/cvekey.cgi