Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon Tôi nên thực hiện các bước nào nếu hệ thống DGX A100 của tôi trở nên không phản hồi trong quá trình cập nhật chương trình cơ sở


Tôi nên thực hiện các bước nào nếu hệ thống DGX A100 của tôi trở nên không phản hồi trong quá trình cập nhật chương trình cơ sở


Nếu hệ thống DGX A100 của bạn trở nên không phản hồi trong quá trình cập nhật chương trình cơ sở, hãy làm theo các bước này để khắc phục sự cố và có khả năng giải quyết vấn đề:

1. Chu kỳ năng lượng Hệ thống: Nếu hệ thống hoàn toàn không phản hồi và không thể truy cập qua SSH hoặc giao diện BMC, hãy thử Power Cycling It. Điều này liên quan đến việc tắt hệ thống thông qua BMC (bộ điều khiển quản lý cơ sở) nếu có thể hoặc rút phích cắm vật lý tất cả các nguồn cung cấp điện và sau đó cắm lại. Điều này đôi khi có thể giải quyết các vấn đề liên quan đến cập nhật phần sụn khiến hệ thống treo [4].

2. Kiểm tra nhật ký BMC: Sử dụng giao diện BMC để kiểm tra bất kỳ thông báo lỗi hoặc nhật ký nào có thể cho biết những gì đã sai trong quá trình cập nhật. Điều này có thể cung cấp manh mối về thành phần nào không thành công hoặc nếu có bất kỳ lỗi cụ thể nào gặp phải trong quá trình cập nhật.

3. Xác minh kết nối mạng: Đảm bảo rằng hệ thống có kết nối mạng ổn định. Đôi khi, các vấn đề mạng có thể khiến cập nhật không thành công hoặc treo. Xác minh rằng hệ thống có thể truy cập các kho lưu trữ hoặc máy chủ cập nhật cần thiết nếu bản cập nhật được thực hiện qua mạng [2].

4. Tận hưởng lại bản cập nhật chương trình cơ sở: Nếu hệ thống trở nên phản hồi sau chu kỳ nguồn, hãy thử chạy lại quy trình cập nhật chương trình cơ sở. Đảm bảo bạn đang sử dụng phiên bản phần sụn mới nhất có sẵn từ Cổng hỗ trợ của NVIDIA [3]. Nếu sử dụng khởi động PXE để cập nhật, hãy xác minh rằng cấu hình PXE là chính xác và hình ảnh cập nhật phần sụn được dàn dựng đúng trên HeadNode [3].

5. Liên hệ với hỗ trợ NVIDIA: Nếu vấn đề vẫn còn sau khi thử các bước trên, có thể cần liên hệ với hỗ trợ NVIDIA để được hỗ trợ thêm. Họ có thể cung cấp hướng dẫn cụ thể dựa trên các thông báo lỗi bạn gặp phải và có thể có các bước hoặc bản vá lỗi bổ sung có sẵn [3] [7].

6. Kiểm tra các vấn đề đã biết: Tham khảo tài liệu của NVIDIA về các vấn đề đã biết liên quan đến cập nhật chương trình cơ sở cho DGX A100. Một số cập nhật có thể có các cách giải quyết hoặc yêu cầu cụ thể cần được tuân thủ để tránh những cạm bẫy thông thường [5].

7. Kiểm tra nhật ký sự kiện hệ thống: Sử dụng các công cụ như `ipmitool` để xóa nhật ký sự kiện hệ thống (SEL) và kiểm tra nó cho bất kỳ thông báo lỗi nào có liên quan. Điều này có thể giúp xác định các vấn đề phần cứng hoặc phần sụn có thể đóng góp cho vấn đề [4].

8. Can thiệp thủ công: Trong một số trường hợp, có thể cần phải can thiệp thủ công để cập nhật các thành phần cụ thể. Điều này có thể liên quan đến việc sử dụng các cờ hoặc lệnh cụ thể để nhắm mục tiêu các thành phần riêng lẻ để cập nhật, như được mô tả trong tài liệu cập nhật phần sụn [1].

Bằng cách làm theo các bước này, bạn sẽ có thể chẩn đoán và có khả năng giải quyết các vấn đề liên quan đến cập nhật chương trình cơ sở trên hệ thống DGX A100 của bạn.

Trích dẫn:
[1] https://github.com/NVIDIA/deepops/blob/master/docs/deepops/dgx-diagnostic-firmware.md
[2] https://docs.nvidia.com/dgx/dgxa100-user-guide/updating-restoring-sw.html
.
[4] https://forums.developer.nvidia.com/t/dgx-a100-hangs-with-jffs2-errors/296729
[5] https://docs.nvidia.com/dgx/dgxa100-fw-container-release-notes/dgxa100-fw-known-issues.html
[6] https://github.com/nvidia/nvidia-container-runtime/issues/85
[7] https://forums.developer.nvidia.com/t/dgx-workstation-a100-firmware-update-failed/317627
[8] https://cve.mitre.org/cgi-bin/cvekey.cgi