Kui teie DGX A100 süsteem muutub püsivara värskenduse käigus reageerimata, järgige neid samme, et tõrkeotsingut ja potentsiaalselt probleemi lahendada:
1. jõutsükkel Süsteem: kui süsteem ei reageeri täielikult ja sellele ei pääse juurde SSH või BMC liidese kaudu, proovige seda tsüklit. See hõlmab võimaluse korral süsteemi BMC (põrandalauahalduskontrolleri) kaudu väljalülitamist või kõigi toiteallikate füüsiliselt lahti ühendamist ja seejärel nende tagasi ühendamist. See võib mõnikord lahendada püsivara värskendustega seotud probleemid, mis on põhjustanud süsteemi riputama [4].
2. Kontrollige BMC logisid: kasutage BMC -liidest, et kontrollida tõrketeateid või logisid, mis võivad näidata, mis värskenduse ajal valesti läks. See võib anda vihjeid selle kohta, milline komponent ebaõnnestus või kui värskendusprotsessi käigus tekkis konkreetsed vigu.
3. Kontrollige võrguühendust: veenduge, et süsteemil oleks stabiilne võrguühendus. Mõnikord võivad võrguprobleemid põhjustada värskenduste ebaõnnestumist või riputamist. Veenduge, et süsteem pääseb juurde vajalikele hoidlatele või värskendusserveritele, kui värskendus viidi läbi võrgu kaudu [2].
4. Jätkake püsivara värskendust: kui süsteem muutub pärast energiatsüklit reageerivaks, proovige püsivara värskenduse protsessi uuesti käivitada. Veenduge, et kasutate uusimat püsivara versiooni, mis on saadaval Nvidia tugiportaalist [3]. Kui kasutate värskenduste jaoks PXE -alglaadimist, kontrollige, kas PXE konfiguratsioon on õige ja et püsivara värskenduse pilt on korralikult lavastatud peapunktis [3].
5. Võtke ühendust NVIDIA toega: kui probleem püsib pärast ülaltoodud sammude proovimist, võib olla vajalik pöörduda täiendava abi saamiseks NVIDIA toega. Nad saavad esitada konkreetseid juhiseid, mis põhinevad teie ilmnenud tõrketeadetel ja neil võivad olla täiendavaid tõrkeotsingu etappe või saadaval olevaid plaastreid [3] [7].
6. Kontrollige teadaolevaid probleeme: vaadake Nvidia dokumente teadaolevate teemade kohta, mis on seotud DGX A100 püsivara värskendustega. Mõnel värskendusel võivad olla konkreetsed lahendused või nõuded, mida tuleb tavaliste lõksude vältimiseks järgida [5].
7. Kontrollige süsteemi sündmuste logisid: kasutage süsteemi sündmuse logi (SEL) tühjendamiseks selliseid tööriistu, näiteks ipmitool "ja kontrollige seda asjakohaste tõrketeadete osas. See aitab tuvastada riistvara või püsivaraprobleeme, mis võivad probleemile kaasa aidata [4].
8. Käsitsi sekkumine: mõnel juhul võib konkreetsete komponentide värskendamiseks vaja minna käsitsi sekkumist. See võib hõlmata konkreetsete lippude või käskude kasutamist värskenduse jaoks üksikute komponentide sihtimiseks, nagu on kirjeldatud püsivara värskenduse dokumentatsioonis [1].
Neid samme järgides peaksite saama diagnoosida ja potentsiaalselt lahendada oma DGX A100 süsteemi püsivara värskendustega seotud probleemid.
Tsitaadid:
[1] https://github.com/nvidia/deepops/blob/master/docs/deepops/dgx-dagnostic-firmware.md
[2] https://docs.nvidia.com/dgx/dgxa100-user-guide/updating-restoring-sw.html
[3] https://kb.brightcomputing.com/knowledge-base/how-to-tre-vergrade-dgx-a100-firmware-from-from-headnode/
]
]
[6] https://github.com/nvidia/nvidia-container-runtime/issues/85
]
[8] https://cve.mitre.org/cgi-bin/cvekey.cgi