Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon Какие шаги я должен предпринять, если моя система DGX A100 станет безрезультатной во время процесса обновления прошивки


Какие шаги я должен предпринять, если моя система DGX A100 станет безрезультатной во время процесса обновления прошивки


Если ваша система DGX A100 становится не реагирующей во время процесса обновления прошивки, выполните следующие действия, чтобы устранение неполадок и потенциально решить проблему:

1. Питание Система: Если система полностью не реагирует и не может быть доступна через SSH или интерфейс BMC, попробуйте ездить на велосипеде. Это включает в себя выключение системы через BMC (контроллер управления базовой платой), или физически отключить все расходные материалы, а затем подключить их обратно. Это может иногда решить проблемы, связанные с обновлениями прошивки, которые заставили систему повесить [4].

2. Проверьте журналы BMC: используйте интерфейс BMC, чтобы проверить любые сообщения об ошибках или журналы, которые могут указывать на то, что пошло не так во время обновления. Это может дать подсказки о том, какой компонент не удался или были ли какие -либо конкретные ошибки, возникшие в ходе процесса обновления.

3. Проверьте сетевой подключение: убедитесь, что система имеет стабильное сетевое подключение. Иногда проблемы с сетью могут привести к выходу из строя или обновления. Убедитесь, что система может получить доступ к необходимым репозиториям или обновлять серверы, если обновление проводилось по сети [2].

4. Повторно установите обновление прошивки: если система становится отзывчивой после цикла питания, попробуйте повторно выполнить процесс обновления прошивки. Убедитесь, что вы используете последнюю версию прошивки, доступную на портале поддержки NVIDIA [3]. При использовании загрузки PXE для обновлений убедитесь, что конфигурация PXE является правильной и что изображение обновления прошивки правильно организовано в HeadNode [3].

5. Свяжитесь с поддержкой NVIDIA: Если проблема сохраняется после попытки приведенных выше шагов, может потребоваться связаться с поддержкой NVIDIA для получения дополнительной помощи. Они могут предоставить конкретное руководство на основе сообщений об ошибках, с которыми вы столкнулись, и могут иметь дополнительные доступные шаги или исправления для устранения неполадок [3] [7].

6. Проверьте известные проблемы: см. Документацию NVIDIA по известным вопросам, связанным с обновлениями прошивки для DGX A100. Некоторые обновления могут иметь конкретные обходные пути или требования, которые необходимо соблюдать, чтобы избежать общих ошибок [5].

7. Проверьте журналы событий системы: используйте такие инструменты, как `iptimool`, чтобы очистить журнал системных событий (SEL) и осмотреть его на наличие любых соответствующих сообщений об ошибках. Это может помочь определить проблемы с аппаратным или прошивным программным обеспечением, которые могут способствовать проблеме [4].

8. Ручное вмешательство: в некоторых случаях может потребоваться ручное вмешательство для обновления конкретных компонентов. Это может включать использование конкретных флагов или команд для нацеливания на отдельные компоненты для обновления, как описано в документации по обновлению прошивки [1].

Следуя этим этапам, вы должны иметь возможность диагностировать и потенциально решить проблемы, связанные с обновлениями прошивки в вашей системе DGX A100.

Цитаты:
[1] https://github.com/nvidia/deepops/blob/master/docs/deepops/dgx-diagnostic-pirmware.md
[2] https://docs.nvidia.com/dgx/dgxa100-user-guide/updation-restoring-sw.html
[3] https://kb.brightcomputing.com/knowledge-base/how-to-upgrade-dgx-a100-pirmware-from-he-ewnode/
[4] https://forums.developer.nvidia.com/t/dgx-a100-hangs-with-jffs2-errors/296729
[5] https://docs.nvidia.com/dgx/dgxa100-fw-container-release-notes/dgxa100-fw-known-issues.html
[6] https://github.com/nvidia/nvidia-container-runtime/issues/85
[7] https://forums.developer.nvidia.com/t/dgx-workstation-a100-virmware-update-failed/317627
[8] https://cve.mitre.org/cgi-bin/cvekey.cgi