Jika sistem DGX A100 Anda menjadi tidak responsif selama proses pembaruan firmware, ikuti langkah -langkah ini untuk memecahkan masalah dan berpotensi menyelesaikan masalah:
1. Siklus Daya Sistem: Jika sistem sepenuhnya tidak responsif dan tidak dapat diakses melalui SSH atau antarmuka BMC, cobalah bersepeda daya. Ini melibatkan mematikan sistem melalui BMC (Baseboard Management Controller) jika memungkinkan, atau secara fisik mencabut semua catu daya dan kemudian memasukkannya kembali. Ini kadang -kadang dapat menyelesaikan masalah yang terkait dengan pembaruan firmware yang telah menyebabkan sistem menggantung [4].
2. Periksa Log BMC: Gunakan antarmuka BMC untuk memeriksa pesan kesalahan atau log yang mungkin menunjukkan apa yang salah selama pembaruan. Ini dapat memberikan petunjuk tentang komponen mana yang gagal atau jika ada kesalahan spesifik yang ditemui selama proses pembaruan.
3. Verifikasi Konektivitas Jaringan: Pastikan bahwa sistem memiliki konektivitas jaringan yang stabil. Terkadang, masalah jaringan dapat menyebabkan pembaruan gagal atau digantung. Verifikasi bahwa sistem dapat mengakses repositori yang diperlukan atau pembaruan server jika pembaruan dilakukan melalui jaringan [2].
4. Latih ulang pembaruan firmware: Jika sistem menjadi responsif setelah siklus daya, cobalah menjalankan kembali proses pembaruan firmware. Pastikan Anda menggunakan versi firmware terbaru yang tersedia dari portal dukungan NVIDIA [3]. Jika menggunakan boot PXE untuk pembaruan, verifikasi bahwa konfigurasi PXE sudah benar dan gambar pembaruan firmware dipentaskan dengan benar pada headnode [3].
5. Hubungi Dukungan NVIDIA: Jika masalah tetap ada setelah mencoba langkah -langkah di atas, mungkin perlu untuk menghubungi dukungan NVIDIA untuk bantuan lebih lanjut. Mereka dapat memberikan panduan khusus berdasarkan pesan kesalahan yang Anda temui dan mungkin memiliki langkah pemecahan masalah tambahan atau tambalan yang tersedia [3] [7].
6. Periksa masalah yang diketahui: Lihat dokumentasi NVIDIA tentang masalah yang diketahui terkait dengan pembaruan firmware untuk DGX A100. Beberapa pembaruan mungkin memiliki solusi atau persyaratan khusus yang perlu diikuti untuk menghindari jebakan umum [5].
7. Periksa log peristiwa sistem: Gunakan alat seperti `ipmitool` untuk menghapus Log Acara Sistem (SEL) dan memeriksanya untuk pesan kesalahan yang relevan. Ini dapat membantu mengidentifikasi masalah perangkat keras atau firmware yang mungkin berkontribusi pada masalah [4].
8. Intervensi Manual: Dalam beberapa kasus, intervensi manual mungkin diperlukan untuk memperbarui komponen tertentu. Ini mungkin melibatkan penggunaan bendera atau perintah tertentu untuk menargetkan komponen individual untuk pembaruan, seperti yang dijelaskan dalam dokumentasi pembaruan firmware [1].
Dengan mengikuti langkah -langkah ini, Anda harus dapat mendiagnosis dan berpotensi menyelesaikan masalah yang terkait dengan pembaruan firmware pada sistem DGX A100 Anda.
Kutipan:
[1] https://github.com/nvidia/deepops/blob/master/docs/deepops/dgx-diagnostic-firmware.md
[2] https://docs.nvidia.com/dgx/dgxa100-user-guide/updating-restoring-sw.html
[3] https://kb.brightcomputing.com/knowledge-base/how-to-puprade-dgx-a100-firmware-from-headnode/
[4] https://forums.developer.nvidia.com/t/dgx-a100-hangs-with-jffs2-errors/296729
[5] https://docs.nvidia.com/dgx/dgxa100-fw-container-release-notes/dgxa100-fw-nomnent-issues.html
[6] https://github.com/nvidia/nvidia-container-runtime/issues/85
[7] https://forums.developer.nvidia.com/t/dgx-workstation-a100-firmware-update-failed/317627
[8] https://cve.mitre.org/cgi-bin/cvey.cgi