Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon Что мне делать, если обновление прошивки не удалось на моем DGX A100


Что мне делать, если обновление прошивки не удалось на моем DGX A100


Если обновление прошивки не удается в вашей системе NVIDIA DGX A100, есть несколько шагов, которые вы можете предпринять для устранения неполадок и решения проблемы:

1. Определите сообщение об ошибке: аккуратно отметьте сообщение об ошибке, отображаемое во время процесса обновления. Эта информация может иметь решающее значение для диагностики проблемы. Общие проблемы включают ошибки повторной попытки, конфликты с другими услугами или проблемы входа в систему BMC [10].

2. Проверьте системную загрузку и зависимости от обслуживания: убедитесь, что в системе не работают критические рабочие нагрузки и что все необходимые услуги были остановлены. Такие услуги, как «dcgm-exporter», `nvidia-dcgm` и другие, должны быть остановлены перед попыткой обновления [7].

3. Проверьте сетевой подключение: убедитесь, что ваша система имеет стабильное сетевое подключение. Обновления прошивки часто требуют доступа к публичным хранилищам NVIDIA или порталу поддержки предприятия [3] [4].

4. Используйте правильный метод обновления прошивки: вы можете обновить прошивку, используя загрузку PXE из головного узла или с помощью обновления прошивки ISO. Убедитесь, что вы используете правильный метод для вашей настройки [4] [2].

5. Повторите обновление: иногда просто повторение обновления может решить такие проблемы, как «слишком много повторных» ошибок. Если вы столкнетесь с такими сообщениями, попробуйте снова запустить команду Update [10].

6. Проверьте конфликты с другим программным обеспечением: убедитесь, что нет конфликтов с другим программным обеспечением или услугами, работающими в системе. Docker или Podman могут мешать процессу обновления, поэтому убедитесь, что они правильно управляются [10].

7. Используйте диагностические инструменты: используйте диагностические инструменты, предоставленные NVIDIA, чтобы проверить здоровье системы до и после обновления. Это может помочь определить любые основные проблемы, которые могут привести к провалу обновления [7].

8. Свяжитесь с поддержкой NVIDIA: если ни один из вышеперечисленных шагов не решает проблему, может потребоваться связаться с поддержкой NVIDIA для дальнейшей помощи. Они могут предоставить конкретное руководство на основе конфигурации вашей системы и сообщений об ошибках, которые вы видите [4] [9].

9. Питание цикл Система: в некоторых случаях может потребоваться цикл питания после неудачного обновления. Убедитесь, что вы выполняете надлежащие процедуры отключения, чтобы избежать потери данных или повреждения системы [5] [7].

10. Восстановите изображение системы: если обновление вызвало серьезные проблемы, вам может потребоваться восстановить изображение системы в его исходное состояние. Это может быть сделано с использованием ISO -файла, полученного от поддержки NVIDIA Enterprise [3].

Следуя этим шагам, вы сможете устранение неполадок и потенциально разрешить сбои обновлений прошивки в вашей системе DGX A100.

Цитаты:
[1] https://securityonline.info/urgent-firmware-alert-nvidia-tackles-critical-dgx-a100-h100-flaws/
[2] https://docs.nvidia.com/dgx/dgxa100-fw-container-release-notes/
[3] https://docs.nvidia.com/dgx/dgxa100-user-guide/updation-restoring-sw.html
[4] https://kb.brightcomputing.com/knowledge-base/how-to-upgrade-dgx-a100-pirmware-from-he-ewnode/
[5] https://nvcrm.my.site.com/espcommunity/s/article/dgx-a100-endless-rebooting-fter-pirmware-upgrade
[6] https://www.skyblue.de/uploads/datasheets/nvidia_twp_dgx_a100_system_architecture.pdf
[7] https://github.com/nvidia/deepops/blob/master/docs/deepops/dgx-diagnostic-pirmware.md
[8] https://www.reddit.com/r/nvidia/comments/1c29hht/booting_a_dgx_a100_with_ventoy/
[9] https://forums.developer.nvidia.com/t/dgx-workstation-a100-pirmware-update-failed/317627
[10] https://docs.nvidia.com/dgx/dgxa100-fw-container-release-notes/dgxa100-fw-known-issues.html
[11] https://nvidia.custhelp.com/app/answers/detail/a_id/5367/~/security-bulletin:-nvidia-dgx-a100-virmware ---june-2022