Если обновление прошивки не удается в вашей системе NVIDIA DGX A100, есть несколько шагов, которые вы можете предпринять для устранения неполадок и решения проблемы:
1. Определите сообщение об ошибке: аккуратно отметьте сообщение об ошибке, отображаемое во время процесса обновления. Эта информация может иметь решающее значение для диагностики проблемы. Общие проблемы включают ошибки повторной попытки, конфликты с другими услугами или проблемы входа в систему BMC [10].
2. Проверьте системную загрузку и зависимости от обслуживания: убедитесь, что в системе не работают критические рабочие нагрузки и что все необходимые услуги были остановлены. Такие услуги, как «dcgm-exporter», `nvidia-dcgm` и другие, должны быть остановлены перед попыткой обновления [7].
3. Проверьте сетевой подключение: убедитесь, что ваша система имеет стабильное сетевое подключение. Обновления прошивки часто требуют доступа к публичным хранилищам NVIDIA или порталу поддержки предприятия [3] [4].
4. Используйте правильный метод обновления прошивки: вы можете обновить прошивку, используя загрузку PXE из головного узла или с помощью обновления прошивки ISO. Убедитесь, что вы используете правильный метод для вашей настройки [4] [2].
5. Повторите обновление: иногда просто повторение обновления может решить такие проблемы, как «слишком много повторных» ошибок. Если вы столкнетесь с такими сообщениями, попробуйте снова запустить команду Update [10].
6. Проверьте конфликты с другим программным обеспечением: убедитесь, что нет конфликтов с другим программным обеспечением или услугами, работающими в системе. Docker или Podman могут мешать процессу обновления, поэтому убедитесь, что они правильно управляются [10].
7. Используйте диагностические инструменты: используйте диагностические инструменты, предоставленные NVIDIA, чтобы проверить здоровье системы до и после обновления. Это может помочь определить любые основные проблемы, которые могут привести к провалу обновления [7].
8. Свяжитесь с поддержкой NVIDIA: если ни один из вышеперечисленных шагов не решает проблему, может потребоваться связаться с поддержкой NVIDIA для дальнейшей помощи. Они могут предоставить конкретное руководство на основе конфигурации вашей системы и сообщений об ошибках, которые вы видите [4] [9].
9. Питание цикл Система: в некоторых случаях может потребоваться цикл питания после неудачного обновления. Убедитесь, что вы выполняете надлежащие процедуры отключения, чтобы избежать потери данных или повреждения системы [5] [7].
10. Восстановите изображение системы: если обновление вызвало серьезные проблемы, вам может потребоваться восстановить изображение системы в его исходное состояние. Это может быть сделано с использованием ISO -файла, полученного от поддержки NVIDIA Enterprise [3].
Следуя этим шагам, вы сможете устранение неполадок и потенциально разрешить сбои обновлений прошивки в вашей системе DGX A100.
Цитаты:
[1] https://securityonline.info/urgent-firmware-alert-nvidia-tackles-critical-dgx-a100-h100-flaws/
[2] https://docs.nvidia.com/dgx/dgxa100-fw-container-release-notes/
[3] https://docs.nvidia.com/dgx/dgxa100-user-guide/updation-restoring-sw.html
[4] https://kb.brightcomputing.com/knowledge-base/how-to-upgrade-dgx-a100-pirmware-from-he-ewnode/
[5] https://nvcrm.my.site.com/espcommunity/s/article/dgx-a100-endless-rebooting-fter-pirmware-upgrade
[6] https://www.skyblue.de/uploads/datasheets/nvidia_twp_dgx_a100_system_architecture.pdf
[7] https://github.com/nvidia/deepops/blob/master/docs/deepops/dgx-diagnostic-pirmware.md
[8] https://www.reddit.com/r/nvidia/comments/1c29hht/booting_a_dgx_a100_with_ventoy/
[9] https://forums.developer.nvidia.com/t/dgx-workstation-a100-pirmware-update-failed/317627
[10] https://docs.nvidia.com/dgx/dgxa100-fw-container-release-notes/dgxa100-fw-known-issues.html
[11] https://nvidia.custhelp.com/app/answers/detail/a_id/5367/~/security-bulletin:-nvidia-dgx-a100-virmware ---june-2022