Jika pembaruan firmware gagal pada sistem NVIDIA DGX A100 Anda, ada beberapa langkah yang dapat Anda ambil untuk memecahkan masalah dan menyelesaikan masalah:
1. Identifikasi pesan kesalahan: Catat dengan cermat pesan kesalahan yang ditampilkan selama proses pembaruan. Informasi ini bisa sangat penting untuk mendiagnosis masalah. Masalah umum termasuk kesalahan coba lagi, konflik dengan layanan lain, atau masalah login BMC [10].
2. Periksa Sistem Load dan Dependensi Layanan: Pastikan tidak ada beban kerja penting yang berjalan pada sistem dan bahwa semua layanan yang diperlukan telah dihentikan. Layanan seperti `DCGM-Exporter`,` nvidia-dcgm`, dan yang lain harus dihentikan sebelum mencoba pembaruan [7].
3. Verifikasi Konektivitas Jaringan: Pastikan sistem Anda memiliki konektivitas jaringan yang stabil. Pembaruan firmware sering membutuhkan akses ke repositori publik NVIDIA atau portal dukungan perusahaan [3] [4].
4. Gunakan metode pembaruan firmware yang benar: Anda dapat memperbarui firmware menggunakan boot PXE dari headnode atau dengan menggunakan ISO pembaruan firmware. Pastikan Anda menggunakan metode yang benar untuk pengaturan Anda [4] [2].
5. Coba lagi pembaruan: Terkadang, cukup coba lagi pembaruan dapat menyelesaikan masalah seperti kesalahan "terlalu banyak lagi". Jika Anda menemukan pesan seperti itu, coba jalankan perintah pembaruan lagi [10].
6. Periksa konflik dengan perangkat lunak lain: Pastikan tidak ada konflik dengan perangkat lunak atau layanan lain yang berjalan pada sistem. Docker atau Podman dapat mengganggu proses pembaruan, jadi pastikan ini dikelola dengan benar [10].
7. Gunakan Alat Diagnostik: Memanfaatkan alat diagnostik yang disediakan oleh NVIDIA untuk memeriksa kesehatan sistem sebelum dan sesudah pembaruan. Ini dapat membantu mengidentifikasi masalah mendasar yang mungkin menyebabkan pembaruan gagal [7].
8. Hubungi Dukungan NVIDIA: Jika tidak ada langkah di atas yang menyelesaikan masalah ini, mungkin perlu untuk menghubungi dukungan NVIDIA untuk bantuan lebih lanjut. Mereka dapat memberikan panduan khusus berdasarkan konfigurasi sistem Anda dan pesan kesalahan yang Anda lihat [4] [9].
9. Siklus Daya Sistem: Dalam beberapa kasus, siklus daya mungkin diperlukan setelah pembaruan yang gagal. Pastikan Anda mengikuti prosedur shutdown yang tepat untuk menghindari kehilangan data atau kerusakan sistem [5] [7].
10. Kembalikan gambar sistem: Jika pembaruan telah menyebabkan masalah yang signifikan, Anda mungkin perlu mengembalikan gambar sistem ke keadaan aslinya. Ini dapat dilakukan dengan menggunakan file ISO yang diperoleh dari dukungan NVIDIA Enterprise [3].
Dengan mengikuti langkah -langkah ini, Anda harus dapat memecahkan masalah dan berpotensi menyelesaikan kegagalan pembaruan firmware pada sistem DGX A100 Anda.
Kutipan:
[1] https://securityonline.info/urgent-firmware-alert-nvidia-tackles-critical-dgx-a100-h100-flaws/
[2] https://docs.nvidia.com/dgx/dgxa100-fw-container-release-notes/
[3] https://docs.nvidia.com/dgx/dgxa100-user-guide/updating-restoring-sw.html
[4] https://kb.brightcomputing.com/knowledge-base/how-to-upgrade-dgx-a100-firmware-from-headnode/
[5] https://nvcrm.my.site.com/espcommunity/s/article/dgx-a100-endless-rebooting-after-firmware-upgrade
[6] https://www.skyblue.de/uploads/dataSheets/nvidia_twp_dgx_a100_system_architecture.pdf
[7] https://github.com/nvidia/deepops/blob/master/docs/deepops/dgx-diagnostic-firmware.md
[8] https://www.reddit.com/r/nvidia/comments/1c29hht/booting_a_dgx_a100_with_ventoy/
[9] https://forums.developer.nvidia.com/t/dgx-workstation-a100-firmware-update-failed/317627
[10] https://docs.nvidia.com/dgx/dgxa100-fw-container-release-notes/dgxa100-fw-nomnent-issues.html
[11] https://nvidia.custhelp.com/app/answers/detail/a_id/5367/~/security-bulletin:-nvidia-dgx-a100-firmware--- Juni-2022