Dacă o actualizare a firmware -ului nu reușește pe sistemul dvs. NVIDIA DGX A100, există mai mulți pași pe care îi puteți face pentru a rezolva probleme și a rezolva problema:
1. Identificați mesajul de eroare: Rețineți cu atenție mesajul de eroare afișat în timpul procesului de actualizare. Aceste informații pot fi cruciale pentru diagnosticarea problemei. Problemele comune includ erori de reîncercare, conflicte cu alte servicii sau probleme de conectare BMC [10].
2. Verificați încărcarea sistemului și dependențele de service: asigurați -vă că nu funcționează sarcini de lucru critice pe sistem și că toate serviciile necesare au fost oprite. Servicii precum `DCGM-Exporter`,` Nvidia-DCGM`, și altele ar trebui oprite înainte de a încerca actualizarea [7].
3. Verificați conectivitatea rețelei: asigurați -vă că sistemul dvs. are conectivitate stabilă a rețelei. Actualizările firmware -ului necesită adesea acces la depozitele publice ale NVIDIA sau la portalul de asistență pentru întreprinderi [3] [4].
4. Utilizați metoda corectă de actualizare a firmware -ului: puteți actualiza firmware -ul folosind un portier PXE dintr -un headnode sau folosind un ISO de actualizare a firmware -ului. Asigurați -vă că utilizați metoda corectă pentru configurarea dvs. [4] [2].
5. Recerceți la actualizare: Uneori, pur și simplu reîncărcarea actualizării poate rezolva probleme precum erorile „prea multe retrageri”. Dacă întâlniți astfel de mesaje, încercați din nou rularea comenzii de actualizare [10].
6. Verificați conflictele cu alte software: Asigurați -vă că nu există conflicte cu alte software sau servicii care rulează pe sistem. Docker sau Podman ar putea interfera cu procesul de actualizare, deci asigurați -vă că acestea sunt gestionate în mod corespunzător [10].
7. Utilizați instrumente de diagnostic: utilizați instrumente de diagnostic furnizate de NVIDIA pentru a verifica sănătatea sistemului înainte și după actualizare. Acest lucru poate ajuta la identificarea oricăror probleme de bază care ar putea determina să eșueze actualizarea [7].
8. Contactați asistența NVIDIA: Dacă niciunul dintre etapele de mai sus nu rezolvă problema, poate fi necesar să contactați asistența NVIDIA pentru asistență suplimentară. Acestea pot oferi îndrumări specifice pe baza configurației sistemului dvs. și a mesajelor de eroare pe care le vedeți [4] [9].
9. Ciclul de putere Sistemul: în unele cazuri, ar putea fi necesar un ciclu de putere după o actualizare eșuată. Asigurați -vă că urmați procedurile de oprire corespunzătoare pentru a evita pierderea de date sau deteriorarea sistemului [5] [7].
10. Restaurați imaginea sistemului: Dacă actualizarea a provocat probleme semnificative, poate fi necesar să restabiliți imaginea sistemului la starea inițială. Acest lucru se poate face folosind un fișier ISO obținut de la NVIDIA Enterprise Support [3].
Urmărind acești pași, ar trebui să fiți capabil să rezolvați probleme și să rezolvați eșecurile de actualizare a firmware -ului pe sistemul dvs. DGX A100.
Citări:
[1] https://securityonline.info/urgent-firmware-alert-nvidia-tackles-critical-dgx-a100-h100-flaws/
[2] https://docs.nvidia.com/dgx/dgxa100-fw-cotainer-release-notes/
[3] https://docs.nvidia.com/dgx/dgxa100-user-guide/updating-restoring-sw.html
[4] https://kb.brightcomputing.com/knowledge-base/how-to-upgrade-dgx-a100-firmware-from-headnode/
[5] https://nvcrm.my.site.com/espcommunity/s/article/dgx-a100-endless-rebooting-after-firmware-upgrade
[6] https://www.skyblue.de/uploads/datasheets/nvidia_twp_dgx_a100_system_architecture.pdf
[7] https://github.com/nvidia/deepops/blob/master/docs/deepops/dgx-diagnostic-firmware.md
[8] https://www.reddit.com/r/nvidia/comments/1c29hht/booting_a_dgx_a100_with_ventoy/
[9] https://forums.developer.nvidia.com/t/dgx-workstation-a100-firmware-update-failed/317627
[10] https://docs.nvidia.com/dgx/dgxa100-fw-cotainer-release-notes/dgxa100-fw-knows-issues.html
[11] https://nvidia.custhelp.com/app/answers/detail/a_id/5367/~/security-bulletin:-nvidia-dgx-a100-firmware--iunie-2022