Якщо оновлення прошивки не вдається у вашій системі NVIDIA DGX A100, ви можете зробити кілька кроків для усунення несправностей та вирішення проблеми:
1. Визначте повідомлення про помилку: ретельно відзначте повідомлення про помилку, що відображається під час процесу оновлення. Ця інформація може бути вирішальною для діагностики проблеми. Загальні проблеми включають помилки повторного повторного спроби, конфлікти з іншими послугами або проблеми входу в BMC [10].
2. Перевірте залежності від навантаження та обслуговування системи: Переконайтесь, що не працює критичних навантажень від системи та що всі необхідні послуги були припинені. Такі послуги, як `dcgm-exporter`,` nvidia-dcgm`, та інші повинні бути зупинені перед спробою оновлення [7].
3. Перевірте підключення до мережі: Переконайтесь, що ваша система має стабільне підключення до мережі. Оновлення прошивки часто вимагає доступу до публічних сховищ NVIDIA або порталу підтримки підприємств [3] [4].
4. Використовуйте правильний метод оновлення прошивки: Ви можете оновити прошивку за допомогою завантаження PXE з головного коду або за допомогою ISO оновлення прошивки. Переконайтесь, що ви використовуєте правильний метод для налаштування [4] [2].
5. Повторіть оновлення: Іноді просто повторне повторне оновлення може вирішити такі проблеми, як "занадто багато повторних" помилок. Якщо ви стикаєтесь з такими повідомленнями, спробуйте знову запустити команду оновлення [10].
6. Перевірте наявність конфліктів з іншим програмним забезпеченням: Переконайтесь, що конфлікти з іншим програмним забезпеченням чи послугами, що працюють у системі. Docker або Podman можуть заважати процесу оновлення, тому переконайтеся, що ними належним чином керують [10].
7. Використовуйте діагностичні інструменти: Використовуйте діагностичні інструменти, надані NVIDIA, щоб перевірити здоров'я системи до та після оновлення. Це може допомогти визначити будь -які основні проблеми, які можуть спричинити невдачу оновлення [7].
8. Зверніться до підтримки NVIDIA: Якщо жоден із перерахованих вище кроків не вирішує проблему, може знадобитися зв’язатися з підтримкою NVIDIA для подальшої допомоги. Вони можуть надати конкретні вказівки на основі конфігурації вашої системи та повідомлень про помилки, які ви бачите [4] [9].
9. Цикл живлення Система: У деяких випадках після невдалого оновлення може знадобитися цикл живлення. Переконайтесь, що ви дотримуєтесь належних процедур відключення, щоб уникнути втрати даних або пошкодження системи [5] [7].
201 Це можна зробити за допомогою файлу ISO, отриманого від підтримки Nvidia Enterprise [3].
Дотримуючись цих кроків, ви повинні мати можливість усунути неполадки та потенційно вирішити збої оновлення мікропрограмного забезпечення у вашій системі DGX A100.
Цитати:
[1] https://securityonline.info/urgent-firmware-alert-nvidia-tackles-critical-dgx-a100-h100-flaws/
[2] https://docs.nvidia.com/dgx/dgxa100-fw-container-release-notes/
[3] https://docs.nvidia.com/dgx/dgxa100-user-guide/updating-restoring-sw.html
[4] https://kb.brightcomputing.com/knowledge-base/how-to-upgrade-dgx-a100-firmware-from-headnode/
[5] https://nvcrm.my.site.com/espcommunity/s/article/dgx-a100-endless-rebooting-after-firmware upgrade
[6] https://www.skyblue.de/uploads/datasheets/nvidia_twp_dgx_a100_system_architecture.pdf
[7] https://github.com/nvidia/deepops/blob/master/docs/deepops/dgx-diagnostic-firmware.md
[8] https://www.reddit.com/r/nvidia/comments/1c29hht/booting_a_dgx_a100_with_ventoy/
[9] https://forums.developer.nvidia.com/t/dgx-workstation-a100-firmware-update-failed/317627
[10] https://docs.nvidia.com/dgx/dgxa100-fw-container-release-notes/dgxa100-fw- known-issues.html
[.