Если ваша система DGX A100 становится не реагирующей во время процесса обновления прошивки, выполните следующие действия, чтобы устранение неполадок и потенциально решить проблему:
1. Питание Система: Если система полностью не реагирует и не может быть доступна через SSH или интерфейс BMC, попробуйте ездить на велосипеде. Это включает в себя выключение системы через BMC (контроллер управления базовой платой), или физически отключить все расходные материалы, а затем подключить их обратно. Это может иногда решить проблемы, связанные с обновлениями прошивки, которые заставили систему повесить [4].
2. Проверьте журналы BMC: используйте интерфейс BMC, чтобы проверить любые сообщения об ошибках или журналы, которые могут указывать на то, что пошло не так во время обновления. Это может дать подсказки о том, какой компонент не удался или были ли какие -либо конкретные ошибки, возникшие в ходе процесса обновления.
3. Проверьте сетевой подключение: убедитесь, что система имеет стабильное сетевое подключение. Иногда проблемы с сетью могут привести к выходу из строя или обновления. Убедитесь, что система может получить доступ к необходимым репозиториям или обновлять серверы, если обновление проводилось по сети [2].
4. Повторно установите обновление прошивки: если система становится отзывчивой после цикла питания, попробуйте повторно выполнить процесс обновления прошивки. Убедитесь, что вы используете последнюю версию прошивки, доступную на портале поддержки NVIDIA [3]. При использовании загрузки PXE для обновлений убедитесь, что конфигурация PXE является правильной и что изображение обновления прошивки правильно организовано в HeadNode [3].
5. Свяжитесь с поддержкой NVIDIA: Если проблема сохраняется после попытки приведенных выше шагов, может потребоваться связаться с поддержкой NVIDIA для получения дополнительной помощи. Они могут предоставить конкретное руководство на основе сообщений об ошибках, с которыми вы столкнулись, и могут иметь дополнительные доступные шаги или исправления для устранения неполадок [3] [7].
6. Проверьте известные проблемы: см. Документацию NVIDIA по известным вопросам, связанным с обновлениями прошивки для DGX A100. Некоторые обновления могут иметь конкретные обходные пути или требования, которые необходимо соблюдать, чтобы избежать общих ошибок [5].
7. Проверьте журналы событий системы: используйте такие инструменты, как `iptimool`, чтобы очистить журнал системных событий (SEL) и осмотреть его на наличие любых соответствующих сообщений об ошибках. Это может помочь определить проблемы с аппаратным или прошивным программным обеспечением, которые могут способствовать проблеме [4].
8. Ручное вмешательство: в некоторых случаях может потребоваться ручное вмешательство для обновления конкретных компонентов. Это может включать использование конкретных флагов или команд для нацеливания на отдельные компоненты для обновления, как описано в документации по обновлению прошивки [1].
Следуя этим этапам, вы должны иметь возможность диагностировать и потенциально решить проблемы, связанные с обновлениями прошивки в вашей системе DGX A100.
Цитаты:
[1] https://github.com/nvidia/deepops/blob/master/docs/deepops/dgx-diagnostic-pirmware.md
[2] https://docs.nvidia.com/dgx/dgxa100-user-guide/updation-restoring-sw.html
[3] https://kb.brightcomputing.com/knowledge-base/how-to-upgrade-dgx-a100-pirmware-from-he-ewnode/
[4] https://forums.developer.nvidia.com/t/dgx-a100-hangs-with-jffs2-errors/296729
[5] https://docs.nvidia.com/dgx/dgxa100-fw-container-release-notes/dgxa100-fw-known-issues.html
[6] https://github.com/nvidia/nvidia-container-runtime/issues/85
[7] https://forums.developer.nvidia.com/t/dgx-workstation-a100-virmware-update-failed/317627
[8] https://cve.mitre.org/cgi-bin/cvekey.cgi