Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon DGX A100'ümde ürün yazılımı güncellemesi başarısız olursa ne yapmalıyım


DGX A100'ümde ürün yazılımı güncellemesi başarısız olursa ne yapmalıyım


NVIDIA DGX A100 sisteminizde bir ürün yazılımı güncellemesi başarısız olursa, sorunu gidermek ve çözmek için atabileceğiniz birkaç adım vardır:

1. Hata mesajını tanımlayın: Güncelleme işlemi sırasında görüntülenen hata mesajını dikkatlice not edin. Bu bilgi sorunu teşhis etmek için çok önemli olabilir. Yaygın konular arasında yeniden deneme hataları, diğer hizmetlerle çatışmalar veya BMC giriş sorunları bulunmaktadır [10].

2. Sistem yükünü ve servis bağımlılıklarını kontrol edin: Sistemde hiçbir kritik iş yükünün çalışmadığından ve gerekli tüm hizmetlerin durdurulduğundan emin olun. `DCGM-Exporter`,` nvidia-dcgm` ve diğerleri gibi hizmetler güncellemeyi denemeden önce durdurulmalıdır [7].

3. Ağ bağlantısını doğrulayın: Sisteminizin kararlı ağ bağlantısına sahip olduğundan emin olun. Ürün yazılımı güncellemeleri genellikle NVIDIA'nın kamu depolarına veya kurumsal destek portalına erişim gerektirir [3] [4].

4. Doğru ürün yazılımı güncelleme yöntemini kullanın: Ürün yazılımını bir HeadNode'dan bir PXE önyükleme kullanarak veya bir ürün yazılımı güncellemesi ISO kullanarak güncelleyebilirsiniz. Kurulumunuz için doğru yöntemi kullandığınızdan emin olun [4] [2].

5. Güncellemeyi yeniden deneyin: Bazen, güncellemeyi yeniden denemek "çok fazla yeniden deneme" hatası gibi sorunları çözebilir. Bu tür mesajlarla karşılaşırsanız, güncelleme komutunu tekrar çalıştırmayı deneyin [10].

6. Diğer yazılımlarla çatışmaları kontrol edin: Sistemde çalışan diğer yazılım veya hizmetlerle hiçbir çatışma olmadığından emin olun. Docker veya Podman güncelleme işlemine müdahale edebilir, bu nedenle bunların uygun şekilde yönetildiğinden emin olun [10].

7. Teşhis araçlarını kullanın: Güncellemeden önce ve sonra sistemin sağlığını kontrol etmek için NVIDIA tarafından sağlanan teşhis araçlarını kullanın. Bu, güncellemenin başarısız olmasına neden olabilecek altta yatan sorunların belirlenmesine yardımcı olabilir [7].

8. NVIDIA Desteği ile iletişime geçin: Yukarıdaki adımlardan hiçbiri sorunu çözmezse, daha fazla yardım için NVIDIA desteğiyle iletişim kurmak gerekebilir. Sisteminizin yapılandırmasına ve gördüğünüz hata mesajlarına göre özel rehberlik sağlayabilirler [4] [9].

9. Güç Döngüsü Sistemi: Bazı durumlarda, başarısız bir güncellemeden sonra bir güç döngüsü gerekebilir. Veri kaybını veya sistem hasarını önlemek için uygun kapatma prosedürlerini izlediğinizden emin olun [5] [7].

10. Sistem görüntüsünü geri yükleyin: Güncelleme önemli sorunlara neden olmuşsa, sistem görüntüsünü orijinal durumuna geri yüklemeniz gerekebilir. Bu, NVIDIA Kurumsal Desteği'nden elde edilen bir ISO dosyası kullanılarak yapılabilir [3].

Bu adımları izleyerek, DGX A100 sisteminizdeki ürün yazılımı güncelleme hatalarını giderebilmeniz ve potansiyel olarak çözebilmeniz gerekir.

Alıntılar:
[1] https://securityonline.info/urgent-firware-allert-nvidia-tackles-ritical-dgx-a100-h100-flaws/
[2] https://docs.nvidia.com/dgx/dgxa100-fw-container-release-notes/
[3] https://docs.nvidia.com/dgx/dgxa100-user-guide/updating-restoring-sw.html
[4] https://kb.brightcomputing.com/knowledge-base/how-to-pgrade-dgx-a100-firmware-from-headnode/
[5] https://nvcrm.my.site.com/espcommunity/s/article/dgx-a100-endless-rebooting-after-firmware-upgrade
[6] https://www.skybue.de/uploads/datasheets/nvidia_twp_dgx_a100_system_architecture.pdf
[7] https://github.com/nvidia/deepops/blob/master/docs/deepops/dgx-dignostic-firmware.md
[8] https://www.reddit.com/r/nvidia/comments/1c29hht/booting_a_dgx_a100_with_ventoy/
[9] https://forums.eveloper.nvidia.com/t/dgx-workstation-a100-firmware-update-failed/317627
[10] https://docs.nvidia.com/dgx/dgxa100-fw-container-release-notes/dgxa100-fw-nown-issues.html
[11] https://nvidia.custhelp.com/app/answers/detail/a_id/5367/~/security-blletin:-nvidia-dgx-a100-firmware-Haziran-2022