Jeśli system DGX A100 staje się niereagowany podczas procesu aktualizacji oprogramowania układowego, wykonaj następujące kroki, aby rozwiązywać problemy i potencjalnie rozwiązać problem:
1. Cykl zasilania System: Jeśli system jest całkowicie niereagujący i nie można go uzyskać za pośrednictwem SSH lub interfejsu BMC, wypróbuj je na rowerze. Obejmuje to wyłączenie systemu za pomocą BMC (kontroler zarządzania Baseboardem), jeśli to możliwe, lub fizyczne odłączenie wszystkich zasilaczy, a następnie podłączenie ich z powrotem. Może to czasem rozwiązać problemy związane z aktualizacjami oprogramowania układowego, które spowodowały zawieszenie systemu [4].
2. Sprawdź dzienniki BMC: Użyj interfejsu BMC, aby sprawdzić wszelkie komunikaty o błędach lub dzienniki, które mogą wskazywać, co poszło nie tak podczas aktualizacji. Może to dostarczyć wskazówek, który komponent nie powiódł się lub jeśli podczas procesu aktualizacji napotkano jakieś konkretne błędy.
3. Sprawdź łączność sieciową: Upewnij się, że system ma stabilną łączność sieciową. Czasami problemy sieciowe mogą spowodować awarię lub zawieszenie aktualizacji. Sprawdź, czy system może uzyskać dostęp do niezbędnych repozytoriów lub aktualizować serwery, jeśli aktualizacja była wykonywana przez sieć [2].
4. Ponowne przywiązanie aktualizacji oprogramowania układowego: Jeśli system reaguje po cyklu zasilania, spróbuj ponownie uruchomić proces aktualizacji oprogramowania. Upewnij się, że korzystasz z najnowszej wersji oprogramowania układowego dostępnej w portalu wsparcia NVIDIA [3]. Jeśli używasz rozruchu PXE do aktualizacji, sprawdź, czy konfiguracja PXE jest poprawna i że obraz aktualizacji oprogramowania układowego jest odpowiednio zainscenizowany w headNode [3].
5. Skontaktuj się z wsparciem NVIDIA: Jeśli problem utrzymuje się po podjęciu próby powyższych kroków, może być konieczne skontaktowanie się z wsparciem NVIDIA w celu uzyskania dalszej pomocy. Mogą dostarczyć określone wskazówki na podstawie napotkanych komunikatów o błędach i mogą mieć dostępne dodatkowe kroki w zakresie rozwiązywania problemów lub łatki [3] [7].
6. Sprawdź znane problemy: patrz dokumentacja NVIDIA na temat znanych problemów związanych z aktualizacjami oprogramowania układowego dla DGX A100. Niektóre aktualizacje mogą mieć określone obejścia lub wymagania, które należy przestrzegać, aby uniknąć wspólnych pułapek [5].
7. Sprawdź dzienniki zdarzeń systemowych: Użyj narzędzi takich jak „ipmiTool`, aby wyczyścić dziennik zdarzeń systemowych (SEL) i sprawdzić je pod kątem istotnych komunikatów o błędach. Może to pomóc zidentyfikować problemy ze sprzętem lub oprogramowaniem układowym, które mogą przyczynić się do problemu [4].
8. Ręczna interwencja: W niektórych przypadkach może być wymagana ręczna interwencja do aktualizacji określonych elementów. Może to obejmować użycie określonych flag lub poleceń do ukierunkowania poszczególnych komponentów do aktualizacji, jak opisano w dokumentacji aktualizacji oprogramowania układowego [1].
Postępując zgodnie z tymi krokami, powinieneś być w stanie zdiagnozować i potencjalnie rozwiązać problemy związane z aktualizacjami oprogramowania układowego w systemie DGX A100.
Cytaty:
[1] https://github.com/nvidia/deepops/blob/master/docs/deepops/dgx-diagnostic-firmware.md
[2] https://docs.nvidia.com/dgx/dgxa100-user-guide/updating-storing-sw.html
[3] https://kb.brightcomputing.com/knowledge-base/how-to-pgrade-dgx-a100-firmware-from-headnode/
[4] https://forums.developer.nvidia.com/t/dgx-a100-hangs-with-jffs2-errors/296729
[5] https://docs.nvidia.com/dgx/dgxa100-fw-container-release-notes/dgxa100-fw-nowd-issues.html
[6] https://github.com/nvidia/nvidia-container-runtime/issues/85
[7] https://forums.developer.nvidia.com/t/dgx-workstation-a100-firmware-pdate-failed/317627
[8] https://cve.mitre.org/cgi-bin/cvekey.cgi