Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon ฉันควรทำตามขั้นตอนใดหากระบบ DGX A100 ของฉันไม่ตอบสนองในระหว่างกระบวนการอัปเดตเฟิร์มแวร์


ฉันควรทำตามขั้นตอนใดหากระบบ DGX A100 ของฉันไม่ตอบสนองในระหว่างกระบวนการอัปเดตเฟิร์มแวร์


หากระบบ DGX A100 ของคุณไม่ตอบสนองในระหว่างกระบวนการอัปเดตเฟิร์มแวร์ให้ทำตามขั้นตอนเหล่านี้เพื่อแก้ไขปัญหาและแก้ไขปัญหา:

1. วงจรพลังงานระบบ: หากระบบไม่ตอบสนองอย่างสมบูรณ์และไม่สามารถเข้าถึงได้ผ่าน SSH หรืออินเทอร์เฟซ BMC ลองใช้พลังงานปั่นจักรยาน สิ่งนี้เกี่ยวข้องกับการปิดระบบผ่าน BMC (คอนโทรลเลอร์การจัดการบอร์ดบอร์ด) ถ้าเป็นไปได้หรือถอดปลั๊กแหล่งจ่ายไฟทั้งหมดแล้วเสียบปลั๊กกลับเข้ามาบางครั้งสิ่งนี้สามารถแก้ไขปัญหาที่เกี่ยวข้องกับการอัปเดตเฟิร์มแวร์ที่ทำให้ระบบแขวน [4]

2. ตรวจสอบบันทึก BMC: ใช้อินเตอร์เฟส BMC เพื่อตรวจสอบข้อความแสดงข้อผิดพลาดหรือบันทึกใด ๆ ที่อาจระบุสิ่งที่ผิดพลาดระหว่างการอัปเดต สิ่งนี้สามารถให้เบาะแสเกี่ยวกับส่วนประกอบที่ล้มเหลวหรือหากมีข้อผิดพลาดเฉพาะที่พบในระหว่างกระบวนการอัปเดต

3. ตรวจสอบการเชื่อมต่อเครือข่าย: ตรวจสอบให้แน่ใจว่าระบบมีการเชื่อมต่อเครือข่ายที่เสถียร บางครั้งปัญหาเครือข่ายอาจทำให้การอัปเดตล้มเหลวหรือแฮงค์ ตรวจสอบว่าระบบสามารถเข้าถึงที่เก็บข้อมูลที่จำเป็นหรือเซิร์ฟเวอร์อัปเดตหากการอัปเดตถูกดำเนินการผ่านเครือข่าย [2]

4. ตรวจสอบการอัพเดทเฟิร์มแวร์อีกครั้ง: หากระบบตอบสนองหลังจากรอบพลังงานให้ลองใช้กระบวนการอัปเดตเฟิร์มแวร์อีกครั้ง ตรวจสอบให้แน่ใจว่าคุณใช้เวอร์ชันเฟิร์มแวร์ล่าสุดจากพอร์ทัลสนับสนุนของ Nvidia [3] หากใช้การบูต PXE สำหรับการอัปเดตให้ตรวจสอบว่าการกำหนดค่า PXE นั้นถูกต้องและอิมเมจการอัปเดตเฟิร์มแวร์จะจัดฉากอย่างถูกต้องบน headNode [3]

5. ติดต่อการสนับสนุน NVIDIA: หากปัญหายังคงอยู่หลังจากพยายามทำตามขั้นตอนข้างต้นอาจจำเป็นต้องติดต่อการสนับสนุน NVIDIA เพื่อขอความช่วยเหลือเพิ่มเติม พวกเขาสามารถให้คำแนะนำเฉพาะตามข้อความแสดงข้อผิดพลาดที่คุณพบและอาจมีขั้นตอนการแก้ไขปัญหาเพิ่มเติมหรือแพตช์ [3] [7]

6. ตรวจสอบปัญหาที่ทราบ: อ้างอิงเอกสารของ Nvidia เกี่ยวกับปัญหาที่ทราบเกี่ยวกับการอัปเดตเฟิร์มแวร์สำหรับ DGX A100 การอัปเดตบางอย่างอาจมีวิธีแก้ปัญหาหรือข้อกำหนดเฉพาะที่ต้องปฏิบัติตามเพื่อหลีกเลี่ยงข้อผิดพลาดทั่วไป [5]

7. ตรวจสอบบันทึกเหตุการณ์ระบบ: ใช้เครื่องมือเช่น `ipmitool` เพื่อล้างบันทึกเหตุการณ์ระบบ (SEL) และตรวจสอบสำหรับข้อความแสดงข้อผิดพลาดที่เกี่ยวข้อง สิ่งนี้สามารถช่วยระบุปัญหาฮาร์ดแวร์หรือเฟิร์มแวร์ที่อาจมีส่วนทำให้เกิดปัญหา [4]

8. การแทรกแซงด้วยตนเอง: ในบางกรณีอาจจำเป็นต้องมีการแทรกแซงด้วยตนเองเพื่ออัปเดตส่วนประกอบเฉพาะ สิ่งนี้อาจเกี่ยวข้องกับการใช้ธงหรือคำสั่งเฉพาะเพื่อกำหนดเป้าหมายส่วนประกอบแต่ละตัวสำหรับการอัปเดตตามที่อธิบายไว้ในเอกสารการอัพเดทเฟิร์มแวร์ [1]

โดยทำตามขั้นตอนเหล่านี้คุณควรจะสามารถวินิจฉัยและแก้ไขปัญหาที่เกี่ยวข้องกับการอัปเดตเฟิร์มแวร์ในระบบ DGX A100 ของคุณ

การอ้างอิง:
[1] https://github.com/nvidia/deepops/blob/master/docs/deepops/dgx-diagnostic-firmware.md
[2] https://docs.nvidia.com/dgx/dgxa100-user-guide/updating-restoring-sw.html
[3] https://kb.brightcomputing.com/knowledge-base/how-to-umgrade-dgx-a100-firmware-from-headnode/
[4] https://forums.developer.nvidia.com/t/dgx-a100-hangs-with-jffs2-errors/296729
[5] https://docs.nvidia.com/dgx/dgxa100-fw-container-release-notes/dgxa100-fw- ที่รู้จัก-issues.html
[6] https://github.com/nvidia/nvidia-container-runtime/issues/85
[7] https://forums.developer.nvidia.com/t/dgx-workstation-a100-firmware-update-failed/317627
[8] https://cve.mitre.org/cgi-bin/cvekey.cgi