Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon Ce pași ar trebui să fac dacă sistemul meu DGX A100 devine fără răspuns în timpul procesului de actualizare a firmware -ului


Ce pași ar trebui să fac dacă sistemul meu DGX A100 devine fără răspuns în timpul procesului de actualizare a firmware -ului


Dacă sistemul dvs. DGX A100 devine fără răspuns în timpul procesului de actualizare a firmware -ului, urmați acești pași pentru a rezolva probleme și pentru a rezolva problema:

1. Ciclul de putere Sistemul: Dacă sistemul nu răspunde complet și nu poate fi accesat prin SSH sau prin interfața BMC, încercați să -l ciclând pe putere. Aceasta implică închiderea sistemului prin BMC (controlerul de gestionare a bazei), dacă este posibil, sau deconectarea fizică a tuturor surselor de alimentare și apoi conectarea lor înapoi. Acest lucru poate rezolva uneori probleme legate de actualizările de firmware care au determinat să atârne sistemul [4].

2. Verificați jurnalele BMC: utilizați interfața BMC pentru a verifica dacă există mesaje de eroare sau jurnale care ar putea indica ceea ce a mers greșit în timpul actualizării. Acest lucru poate oferi indicii despre ce componentă a eșuat sau dacă au existat erori specifice întâmpinate în timpul procesului de actualizare.

3. Verificați conectivitatea rețelei: asigurați -vă că sistemul are conectivitate stabilă a rețelei. Uneori, problemele de rețea pot provoca eșecul sau agățarea actualizărilor. Verificați dacă sistemul poate accesa depozitele necesare sau serverele de actualizare dacă actualizarea a fost efectuată prin rețea [2].

4. Re-adaptarea actualizării firmware-ului: Dacă sistemul devine receptiv după un ciclu de alimentare, încercați să reluați procesul de actualizare a firmware-ului. Asigurați -vă că utilizați cea mai recentă versiune de firmware disponibilă de pe portalul de asistență NVIDIA [3]. Dacă utilizați PXE Boot pentru actualizări, verificați dacă configurația PXE este corectă și că imaginea de actualizare a firmware -ului este pusă în scenă în mod corespunzător pe nodul de cap [3].

5. Contactați asistența NVIDIA: Dacă problema persistă după ce a încercat etapele de mai sus, poate fi necesar să contactați asistența NVIDIA pentru asistență suplimentară. Acestea pot oferi îndrumări specifice pe baza mesajelor de eroare pe care le -ați întâlnit și pot avea pași suplimentari de depanare sau patch -uri disponibile [3] [7].

6. Verificați problemele cunoscute: consultați documentația NVIDIA cu privire la problemele cunoscute legate de actualizările firmware -ului pentru DGX A100. Unele actualizări pot avea soluții sau cerințe specifice care trebuie urmate pentru a evita capcanele comune [5].

7. Inspectați jurnalele de evenimente ale sistemului: utilizați instrumente precum `ipmitool` pentru a șterge jurnalul de evenimente de sistem (SEL) și pentru a -l inspecta pentru orice mesaje de eroare relevante. Acest lucru poate ajuta la identificarea problemelor hardware sau firmware care ar putea contribui la problemă [4].

8. Intervenție manuală: în unele cazuri, poate fi necesară o intervenție manuală pentru a actualiza componente specifice. Aceasta ar putea implica utilizarea steagurilor sau a comenzilor specifice pentru a viza componente individuale pentru actualizare, așa cum este descris în documentația de actualizare a firmware -ului [1].

Urmărind acești pași, ar trebui să puteți diagnostica și rezolva potențial problemele legate de actualizările firmware -ului din sistemul dvs. DGX A100.

Citări:
[1] https://github.com/nvidia/deepops/blob/master/docs/deepops/dgx-diagnostic-firmware.md
[2] https://docs.nvidia.com/dgx/dgxa100-user-guide/updating-restoring-sw.html
[3] https://kb.brightcomputing.com/knowledge-base/how-to-upgrade-dgx-a100-firmware-from-headnode/
[4] https://forums.developer.nvidia.com/t/dgx-a100-hangs-with-jffs2-errors/296729
[5] https://docs.nvidia.com/dgx/dgxa100-fw-cotainer-release-notes/dgxa100-fw-knows-issues.html
[6] https://github.com/nvidia/nvidia-cotainer-runtime/issues/85
[7] https://forums.developer.nvidia.com/t/dgx-workstation-a100-firmware-update-failed/317627
[8] https://cve.mitre.org/cgi-bin/cvekey.cgi