Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon Ürün yazılımı güncelleme işlemi sırasında DGX A100 sistemim yanıt vermezse hangi adımları atmalıyım


Ürün yazılımı güncelleme işlemi sırasında DGX A100 sistemim yanıt vermezse hangi adımları atmalıyım


DGX A100 sisteminiz ürün yazılımı güncelleme işlemi sırasında yanıt vermiyorsa, sorunu gidermek ve potansiyel olarak çözmek için bu adımları izleyin:

1. Güç döngüsü Sistem: Sistem tamamen tepkisiz ise ve SSH veya BMC arayüzü aracılığıyla erişilemiyorsa, güç bisikletini deneyin. Bu, mümkünse BMC (süpürgelik yönetim denetleyicisi) aracılığıyla sistemi kapatmayı veya tüm güç kaynaklarını fiziksel olarak takmayı ve daha sonra tekrar takmayı içerir. Bu, bazen sistemin asmasına neden olan ürün yazılımı güncellemeleriyle ilgili sorunları çözebilir [4].

2. BMC Günlüklerini Kontrol Edin: Güncelleme sırasında neyin yanlış gittiğini gösterebilecek herhangi bir hata mesajı veya günlük olup olmadığını kontrol etmek için BMC arabirimini kullanın. Bu, hangi bileşenin başarısız olduğu veya güncelleme işlemi sırasında herhangi bir belirli hata olup olmadığı hakkında ipuçları sağlayabilir.

3. Ağ bağlantısını doğrulayın: Sistemin kararlı ağ bağlantısına sahip olduğundan emin olun. Bazen, ağ sorunları güncellemelerin başarısız olmasına veya asmasına neden olabilir. Güncelleme ağ üzerinde gerçekleştiriliyorsa sistemin gerekli depolara erişebileceğini veya güncelleme sunucularını doğrulayabileceğini doğrulayın [2].

4. Ürün yazılımı güncellemesini yeniden başlatın: Sistem bir güç döngüsünden sonra duyarlı hale gelirse, ürün yazılımı güncelleme işlemini yeniden çalıştırmayı deneyin. NVIDIA'nın Destek Portalından sağlanan en son ürün yazılımı sürümünü kullandığınızdan emin olun [3]. Güncellemeler için PXE önyükleme kullanıyorsanız, PXE yapılandırmasının doğru olduğunu ve ürün yazılımı güncelleme görüntüsünün HeadNode'da düzgün bir şekilde hazırlandığını doğrulayın [3].

5. NVIDIA Desteği ile iletişime geçin: Yukarıdaki adımları denedikten sonra sorun devam ederse, daha fazla yardım için NVIDIA desteğiyle iletişim kurmak gerekebilir. Karşılaştığınız hata mesajlarına dayalı özel rehberlik sağlayabilir ve mevcut ek sorun giderme adımları veya yamaları olabilir [3] [7].

6 Bilinen sorunları kontrol edin: NVIDIA'nın DGX A100 için ürün yazılımı güncellemeleri ile ilgili bilinen konular hakkındaki dokümanlarına bakın. Bazı güncellemeler, yaygın tuzaklardan kaçınmak için belirli geçici çözümler veya izlenmesi gereken gereksinimlere sahip olabilir [5].

7. Sistem olay günlüklerini inceleyin: Sistem olay günlüğünü (SEL) temizlemek ve ilgili hata mesajlarını incelemek için `` ipmitool '' gibi araçları kullanın. Bu, soruna katkıda bulunabilecek donanım veya ürün yazılımı sorunlarının belirlenmesine yardımcı olabilir [4].

8. Manuel müdahale: Bazı durumlarda, belirli bileşenleri güncellemek için manuel müdahale gerekebilir. Bu, ürün yazılımı güncelleme belgesinde açıklandığı gibi, güncelleme için tek tek bileşenleri hedeflemek için belirli bayrakların veya komutların kullanılmasını içerebilir [1].

Bu adımları izleyerek, DGX A100 sisteminizdeki ürün yazılımı güncellemeleri ile ilgili sorunları teşhis edebilmeniz ve potansiyel olarak çözebilmeniz gerekir.

Alıntılar:
[1] https://github.com/nvidia/deepops/blob/master/docs/deepops/dgx-dignostic-firmware.md
[2] https://docs.nvidia.com/dgx/dgxa100-user-guide/updating-restoring-sw.html
[3] https://kb.brightcomputing.com/knowledge-base/how-to-pgrade-dgx-a100-firmware-from-headnode/
[4] https://forums.eveloper.nvidia.com/t/dgx-a100-hangs-with-jffs2-rors/296729
[5] https://docs.nvidia.com/dgx/dgxa100-fw-container-release-notes/dgxa100-fw-nown-issues.html
[6] https://github.com/nvidia/nvidia-container-runtime/issues/85
[7] https://forums.eveloper.nvidia.com/t/dgx-workstation-a100-firmware-update-failed/317627
[8] https://cve.mitre.org/cgi-bin/cvekey.cgi