Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon Co powinienem zrobić, jeśli aktualizacja oprogramowania układowego nie powiedzie się na moim DGX A100


Co powinienem zrobić, jeśli aktualizacja oprogramowania układowego nie powiedzie się na moim DGX A100


Jeśli aktualizacja oprogramowania układowego nie powiedzie się w systemie NVIDIA DGX A100, istnieje kilka kroków, które możesz podjąć, aby rozwiązać problem i rozwiązać problem:

1. Zidentyfikuj komunikat o błędzie: Uważnie zwróć uwagę na komunikat o błędzie wyświetlany podczas procesu aktualizacji. Informacje te mogą być kluczowe dla diagnozowania problemu. Typowe problemy obejmują błędy ponownego ponownego ponownego, konflikty z innymi usługami lub problemy logowania BMC [10].

2. Sprawdź obciążenie systemu i zależności od usług: upewnij się, że w systemie nie działają żadne krytyczne obciążenia i że wszystkie niezbędne usługi zostały zatrzymane. Usługi takie jak `dcgm-exporter`,` nvidia-dcgm` i inne powinny zostać wstrzymane przed próbą aktualizacji [7].

3. Sprawdź łączność sieciową: Upewnij się, że system ma stabilną łączność sieciową. Aktualizacje oprogramowania układowego często wymagają dostępu do publicznych repozytoriów NVIDIA lub portalu wsparcia przedsiębiorstwa [3] [4].

4. Skorzystaj z prawidłowej metody aktualizacji oprogramowania: możesz zaktualizować oprogramowanie układowe za pomocą rozruchu PXE z nodowego lub za pomocą ISO aktualizacji oprogramowania układowego. Upewnij się, że używasz poprawnej metody konfiguracji [4] [2].

5. Prowadź aktualizację: Czasami po prostu ponowne ponowne rozwiązanie aktualizacji może rozwiązać problemy, takie jak błędy „zbyt wiele prób”. Jeśli napotkasz takie wiadomości, spróbuj ponownie uruchomić polecenie aktualizacji [10].

6. Sprawdź konflikty z innym oprogramowaniem: upewnij się, że w systemie nie ma konfliktów z innymi oprogramowaniem lub usługami. Docker lub Podman mogą zakłócać proces aktualizacji, więc upewnij się, że są one odpowiednio zarządzane [10].

7. Użyj narzędzi diagnostycznych: Użyj narzędzi diagnostycznych dostarczanych przez NVIDIA, aby sprawdzić zdrowie systemu przed i po aktualizacji. Może to pomóc zidentyfikować wszelkie podstawowe problemy, które mogą powodować awarię aktualizacji [7].

8. Skontaktuj się z nvidia Wsparcie: Jeśli żaden z powyższych kroków nie rozwiązuje problemu, może być konieczne skontaktowanie się z wsparciem NVIDIA w celu uzyskania dalszej pomocy. Mogą dostarczyć określone wskazówki na podstawie konfiguracji systemu i komunikatów o błędach, które widzisz [4] [9].

9. Cykl mocy System: W niektórych przypadkach cykl zasilania może być wymagany po nieudanej aktualizacji. Upewnij się, że przestrzegasz odpowiednich procedur wyłączania, aby uniknąć utraty danych lub uszkodzenia systemu [5] [7].

10. Przywróć obraz systemu: Jeśli aktualizacja spowodowała poważne problemy, może być konieczne przywrócenie obrazu systemu do jego pierwotnego stanu. Można to zrobić za pomocą pliku ISO uzyskanego z Nvidia Enterprise Support [3].

Postępując zgodnie z tymi krokami, powinieneś być w stanie rozwiązywać problemy i potencjalnie rozwiązać awarie aktualizacji oprogramowania układowego w systemie DGX A100.

Cytaty:
[1] https://securityonline.info/urgent-firmware-alert-nvidia-tackles-critical-dgx-a100-h100-flaws/
[2] https://docs.nvidia.com/dgx/dgxa100-fw-container-release-notes/
[3] https://docs.nvidia.com/dgx/dgxa100-user-guide/updating-storing-sw.html
[4] https://kb.brightcomputing.com/nowledge-base/how-to-pgrade-dgx-a100-firmware-from-headnode/
[5] https://nvcrm.my.site.com/espcommunity/s/article/dgx-a100-endless-rebooting-after-firmware upgrade
[6] https://www.skyblue.de/uploads/datasheets/nvidia_twp_dgx_a100_system_architecture.pdf
[7] https://github.com/nvidia/deepops/blob/master/docs/deepops/dgx-diagnostic-firmware.md
[8] https://www.reddit.com/r/nvidia/comments/1c29hht/booting_a_dgx_a100_with_ventoy/
[9] https://forums.developer.nvidia.com/t/dgx-workstation-a100-firmware-pdate-failed/317627
[10] https://docs.nvidia.com/dgx/dgxa100-fw-container-release-notes/dgxa100-fw-nowd-issues.html
[11] https://nvidia.custhelp.com/app/answers/detail/a_id/5367/~/security-bulletin