Hvis DGX A100 -systemet ditt ikke svarer under firmwareoppdateringsprosessen, følg disse trinnene for å feilsøke og potensielt løse problemet:
1. Strømsyklus Systemet: Hvis systemet er helt lite svar og ikke kan nås via SSH eller BMC -grensesnittet, kan du prøve å sykle det. Dette innebærer å slå av systemet gjennom BMC (Baseboard Management Controller) om mulig, eller fysisk koble fra alle strømforsyninger og deretter koble dem inn igjen. Dette kan noen ganger løse problemer relatert til firmwareoppdateringer som har fått systemet til å henge [4].
2. Kontroller BMC -logger: Bruk BMC -grensesnittet for å se etter feilmeldinger eller logger som kan indikere hva som gikk galt under oppdateringen. Dette kan gi ledetråder om hvilken komponent som mislyktes, eller hvis det var noen spesifikke feil som ble oppstått under oppdateringsprosessen.
3. Bekreft nettverkstilkobling: Forsikre deg om at systemet har stabilt nettverkstilkobling. Noen ganger kan nettverksproblemer føre til at oppdateringer mislykkes eller henger. Kontroller at systemet kan få tilgang til de nødvendige depotene eller oppdatere servere hvis oppdateringen ble utført over nettverket [2].
4. Forfatt firmwareoppdateringen på nytt: Hvis systemet blir responsivt etter en strømsyklus, kan du prøve å kjøre Firmware-oppdateringsprosessen på nytt. Forsikre deg om at du bruker den nyeste firmwareversjonen som er tilgjengelig fra NVIDIAs støtteportal [3]. Hvis du bruker PXE -oppstart for oppdateringer, må du bekrefte at PXE -konfigurasjonen er riktig og at firmwareoppdateringsbildet er riktig iscenesatt på headnode [3].
5. Kontakt NVIDIA -støtte: Hvis problemet vedvarer etter å ha forsøkt trinnene ovenfor, kan det være nødvendig å kontakte NVIDIA -støtte for ytterligere hjelp. De kan gi spesifikk veiledning basert på feilmeldingene du har opplevd, og kan ha ytterligere feilsøkingstrinn eller oppdateringer tilgjengelige [3] [7].
6. Sjekk for kjente problemer: Se NVIDIAs dokumentasjon om kjente problemer relatert til firmwareoppdateringer for DGX A100. Noen oppdateringer kan ha spesifikke løsninger eller krav som må følges for å unngå vanlige fallgruver [5].
7. Inspiser systemhendelseslogger: Bruk verktøy som `IPMITOOL` for å fjerne systemhendelsesloggen (SEL) og inspisere det for alle relevante feilmeldinger. Dette kan bidra til å identifisere maskinvare- eller firmwareproblemer som kan bidra til problemet [4].
8. Manuell intervensjon: I noen tilfeller kan manuell intervensjon være nødvendig for å oppdatere spesifikke komponenter. Dette kan innebære å bruke spesifikke flagg eller kommandoer for å målrette individuelle komponenter for oppdatering, som beskrevet i firmwareoppdateringsdokumentasjonen [1].
Ved å følge disse trinnene, bør du kunne diagnostisere og potensielt løse problemer relatert til firmwareoppdateringer på DGX A100 -systemet.
Sitasjoner:
[1] https://github.com/nvidia/deepops/blob/master/docs/deepops/dgx-diagnostic-firmware.md
[2] https://docs.nvidia.com/dgx/dgxa100-bruker-guide/updating-restoring-sw.html
[3] https://kb.brightcomputing.com/knowledge-base/how-to-prade-dgx-a100-firmware-from-adnode/
[4] https://forums.developer.nvidia.com/t/dgx-a100-hangs-with-jffs2-rors/296729
[5] https://docs.nvidia.com/dgx/dgxa100-fw-container-release-notes/dgxa100-fw ukjent-issues.html
[6] https://github.com/nvidia/nvidia-container-runtime/issues/85
[7] https://forums.developer.nvidia.com/t/dgx-workstation-a100-firmware-pdate-failed/317627
[8] https://cve.mitre.org/cgi-bin/cvekey.cgi