Hvis dit DGX A100 -system ikke reagerer under firmwareopdateringsprocessen, skal du følge disse trin for at fejlfinde og potentielt løse problemet:
1. Strømcyklus Systemet: Hvis systemet ikke reagerer fuldstændigt og ikke kan fås adgang til via SSH eller BMC -interface, kan du prøve at cykle det. Dette involverer at lukke systemet ned gennem BMC (Baseboard Management Controller), hvis det er muligt, eller fysisk at fjerne alle strømforsyninger og derefter tilslutte dem tilbage. Dette kan undertiden løse problemer relateret til firmwareopdateringer, der har fået systemet til at hænge [4].
2. Kontroller BMC -logfiler: Brug BMC -interface til at kontrollere for eventuelle fejlmeddelelser eller logfiler, der muligvis angiver, hvad der gik galt under opdateringen. Dette kan give ledetråde om, hvilken komponent der mislykkedes, eller om der var nogen specifikke fejl, der blev fundet under opdateringsprocessen.
3. Kontroller netværksforbindelse: Sørg for, at systemet har stabil netværksforbindelse. Nogle gange kan netværksproblemer forårsage, at opdateringer mislykkes eller hænger. Kontroller, at systemet kan få adgang til de nødvendige opbevaringssteder eller opdatere servere, hvis opdateringen blev udført over netværket [2].
4. Undgå firmwareopdateringen: Hvis systemet bliver lydhør efter en strømcyklus, kan du prøve at køre firmwareopdateringsprocessen igen. Sørg for, at du bruger den nyeste firmwareversion, der er tilgængelig fra NVIDIAs supportportal [3]. Hvis du bruger PXE Boot til opdateringer, skal du kontrollere, at PXE -konfigurationen er korrekt, og at firmwareopdateringsbilledet er korrekt iscenesat på headnoden [3].
5. Kontakt NVIDIA -support: Hvis problemet fortsætter efter at have forsøgt ovenstående trin, kan det være nødvendigt at kontakte NVIDIA -support for yderligere hjælp. De kan give specifik vejledning baseret på de fejlmeddelelser, du har stødt på, og kan have yderligere fejlfindingstrin eller patches tilgængelige [3] [7].
6. Kontroller for kendte spørgsmål: Se NVIDIAs dokumentation om kendte spørgsmål relateret til firmwareopdateringer til DGX A100. Nogle opdateringer kan have specifikke løsninger eller krav, der skal følges for at undgå almindelige faldgruber [5].
7. Inspicér systembegivenhedslogfiler: Brug værktøjer som `ipmitool` til at rydde systembegivenhedsloggen (SEL), og inspicér den for eventuelle relevante fejlmeddelelser. Dette kan hjælpe med at identificere hardware- eller firmwareproblemer, der muligvis bidrager til problemet [4].
8. Manuel indgriben: I nogle tilfælde kan manuel indgriben være påkrævet for at opdatere specifikke komponenter. Dette kan involvere at bruge specifikke flag eller kommandoer til at målrette individuelle komponenter til opdatering, som beskrevet i firmwareopdateringsdokumentationen [1].
Ved at følge disse trin skal du være i stand til at diagnosticere og potentielt løse problemer relateret til firmwareopdateringer på dit DGX A100 -system.
Citater:
[1] https://github.com/nvidia/deepops/blob/master/docs/deepops/dgx-diagnostic-firmware.md
[2] https://docs.nvidia.com/dgx/dgxa100-user-guide/updating-restoring-sw.html
[3] https://kb.brightcomputing.com/knowledge-base/how-to-upgrade-dgx-a100-firmware-from-headnode/
[4] https://forums.developer.nvidia.com/t/dgx-a100-hangs-with-jffs2-rors/296729
[5] https://docs.nvidia.com/dgx/dgxa100-fw-container-release-notes/dgxa100-fw- kendte-issues.html
[6] https://github.com/nvidia/nvidia-container-runtime/issues/85
[7] https://forums.developer.nvidia.com/t/dgx-workstation-a100-firmware-update-failed/317627
[8] https://cve.mitre.org/cgi-bin/cvekey.cgi