Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon Що мені робити, якщо оновлення прошивки не вдається на моєму DGX A100


Що мені робити, якщо оновлення прошивки не вдається на моєму DGX A100


Якщо оновлення прошивки не вдається у вашій системі NVIDIA DGX A100, ви можете зробити кілька кроків для усунення несправностей та вирішення проблеми:

1. Визначте повідомлення про помилку: ретельно відзначте повідомлення про помилку, що відображається під час процесу оновлення. Ця інформація може бути вирішальною для діагностики проблеми. Загальні проблеми включають помилки повторного повторного спроби, конфлікти з іншими послугами або проблеми входу в BMC [10].

2. Перевірте залежності від навантаження та обслуговування системи: Переконайтесь, що не працює критичних навантажень від системи та що всі необхідні послуги були припинені. Такі послуги, як `dcgm-exporter`,` nvidia-dcgm`, та інші повинні бути зупинені перед спробою оновлення [7].

3. Перевірте підключення до мережі: Переконайтесь, що ваша система має стабільне підключення до мережі. Оновлення прошивки часто вимагає доступу до публічних сховищ NVIDIA або порталу підтримки підприємств [3] [4].

4. Використовуйте правильний метод оновлення прошивки: Ви можете оновити прошивку за допомогою завантаження PXE з головного коду або за допомогою ISO оновлення прошивки. Переконайтесь, що ви використовуєте правильний метод для налаштування [4] [2].

5. Повторіть оновлення: Іноді просто повторне повторне оновлення може вирішити такі проблеми, як "занадто багато повторних" помилок. Якщо ви стикаєтесь з такими повідомленнями, спробуйте знову запустити команду оновлення [10].

6. Перевірте наявність конфліктів з іншим програмним забезпеченням: Переконайтесь, що конфлікти з іншим програмним забезпеченням чи послугами, що працюють у системі. Docker або Podman можуть заважати процесу оновлення, тому переконайтеся, що ними належним чином керують [10].

7. Використовуйте діагностичні інструменти: Використовуйте діагностичні інструменти, надані NVIDIA, щоб перевірити здоров'я системи до та після оновлення. Це може допомогти визначити будь -які основні проблеми, які можуть спричинити невдачу оновлення [7].

8. Зверніться до підтримки NVIDIA: Якщо жоден із перерахованих вище кроків не вирішує проблему, може знадобитися зв’язатися з підтримкою NVIDIA для подальшої допомоги. Вони можуть надати конкретні вказівки на основі конфігурації вашої системи та повідомлень про помилки, які ви бачите [4] [9].

9. Цикл живлення Система: У деяких випадках після невдалого оновлення може знадобитися цикл живлення. Переконайтесь, що ви дотримуєтесь належних процедур відключення, щоб уникнути втрати даних або пошкодження системи [5] [7].

201 Це можна зробити за допомогою файлу ISO, отриманого від підтримки Nvidia Enterprise [3].

Дотримуючись цих кроків, ви повинні мати можливість усунути неполадки та потенційно вирішити збої оновлення мікропрограмного забезпечення у вашій системі DGX A100.

Цитати:
[1] https://securityonline.info/urgent-firmware-alert-nvidia-tackles-critical-dgx-a100-h100-flaws/
[2] https://docs.nvidia.com/dgx/dgxa100-fw-container-release-notes/
[3] https://docs.nvidia.com/dgx/dgxa100-user-guide/updating-restoring-sw.html
[4] https://kb.brightcomputing.com/knowledge-base/how-to-upgrade-dgx-a100-firmware-from-headnode/
[5] https://nvcrm.my.site.com/espcommunity/s/article/dgx-a100-endless-rebooting-after-firmware upgrade
[6] https://www.skyblue.de/uploads/datasheets/nvidia_twp_dgx_a100_system_architecture.pdf
[7] https://github.com/nvidia/deepops/blob/master/docs/deepops/dgx-diagnostic-firmware.md
[8] https://www.reddit.com/r/nvidia/comments/1c29hht/booting_a_dgx_a100_with_ventoy/
[9] https://forums.developer.nvidia.com/t/dgx-workstation-a100-firmware-update-failed/317627
[10] https://docs.nvidia.com/dgx/dgxa100-fw-container-release-notes/dgxa100-fw- known-issues.html
[.