Якщо ваша система DGX A100 стане невідповідальною під час процесу оновлення прошивки, виконайте ці кроки, щоб вирішити неполадки та потенційно вирішити проблему:
1. Цикл живлення Система: Якщо система повністю не відповідає і не може бути доступна через SSH або інтерфейс BMC, спробуйте живити на велосипеді. Це передбачає вимкнення системи через BMC (контролер управління плінтусами), якщо це можливо, або фізично відключити всі джерела живлення, а потім підключити їх назад. Це іноді може вирішити проблеми, пов'язані з оновленнями прошивки, які спричинили повіслення системи [4].
2. Перевірте журнали BMC: Використовуйте інтерфейс BMC, щоб перевірити будь -які повідомлення про помилки або журнали, які можуть вказувати, що пішло не так під час оновлення. Це може дати підказки про те, який компонент не вдалося, або якщо під час процесу оновлення виникли якісь конкретні помилки.
3. Перевірте підключення до мережі: Переконайтесь, що система має стабільне підключення до мережі. Іноді мережеві проблеми можуть призвести до того, що оновлення провалюються або повіситься. Переконайтеся, що система може отримати доступ до необхідних сховищ або оновлювати сервери, якщо оновлення виконувалося в мережі [2].
201 Переконайтесь, що ви використовуєте останню версію прошивки, доступну з порталу підтримки Nvidia [3]. Якщо ви використовуєте завантаження PXE для оновлень, переконайтеся, що конфігурація PXE є правильною і чи зображення оновлення прошивки належним чином встановлюється на головномуда [3].
5. Зверніться до підтримки NVIDIA: Якщо проблема наполягає на спробі вищезазначених кроків, може знадобитися зв’язатися з підтримкою NVIDIA для подальшої допомоги. Вони можуть надати конкретні вказівки на основі повідомлень про помилки, з якими ви стикалися, і можуть мати додаткові кроки усунення несправностей або патчі [3] [7].
6. Перевірте наявність відомих питань: зверніться до документації NVIDIA про відомі проблеми, пов'язані з оновленнями прошивки для DGX A100. Деякі оновлення можуть мати конкретні рішення або вимоги, які потрібно дотримуватися, щоб уникнути загальних підводних каменів [5].
7. Перевірте журнали подій системи: Використовуйте такі інструменти, як `ipmitool` для очищення журналу системних подій (SEL) та огляньте його на наявність відповідних повідомлень про помилки. Це може допомогти визначити проблеми апаратного або прошивки, які можуть сприяти проблемі [4].
8. Ручне втручання: У деяких випадках для оновлення конкретних компонентів може знадобитися ручне втручання. Це може включати використання конкретних прапорів або команд для орієнтації на окремі компоненти для оновлення, як описано в документації про оновлення прошивки [1].
Дотримуючись цих кроків, ви повинні мати можливість діагностувати та потенційно вирішити проблеми, пов'язані з оновленнями прошивки у вашій системі DGX A100.
Цитати:
[1] https://github.com/nvidia/deepops/blob/master/docs/deepops/dgx-diagnostic-firmware.md
[2] https://docs.nvidia.com/dgx/dgxa100-user-guide/updating-restoring-sw.html
.
[4] https://forums.developer.nvidia.com/t/dgx-a100-hangs-with-jffs2-errors/296729
[5] https://docs.nvidia.com/dgx/dgxa100-fw-container-release-notes/dgxa100-fw- known-issues.html
[6] https://github.com/nvidia/nvidia-container-runtime/issues/85
[7] https://forums.developer.nvidia.com/t/dgx-workstation-a100-firmware-update-failed/317627
[8] https://cve.mitre.org/cgi-bin/cvekey.cgi