Se uma atualização de firmware falhar no seu sistema NVIDIA DGX A100, há várias etapas que você pode tomar para solucionar e resolver o problema:
1. Identifique a mensagem de erro: Observe cuidadosamente a mensagem de erro exibida durante o processo de atualização. Esta informação pode ser crucial para diagnosticar o problema. Questões comuns incluem erros de repetição, conflitos com outros serviços ou problemas de login do BMC [10].
2. Verifique a carga do sistema e as dependências de serviço: verifique se nenhuma carga de trabalho crítica está em execução no sistema e que todos os serviços necessários foram interrompidos. Serviços como `dcgm-exporter`,` nvidia-dcgm` e outros devem ser interrompidos antes de tentar a atualização [7].
3. Verifique a conectividade da rede: verifique se o seu sistema possui conectividade estável de rede. As atualizações de firmware geralmente exigem acesso aos repositórios públicos da NVIDIA ou portal de suporte corporativo [3] [4].
4. Use o método de atualização de firmware correto: você pode atualizar o firmware usando uma inicialização PXE de um nó Headnode ou usando um ISO de atualização de firmware. Verifique se você está usando o método correto para sua configuração [4] [2].
5. Representar a atualização: Às vezes, basta tentar novamente a atualização pode resolver problemas como erros de "muitas tentativas". Se você encontrar essas mensagens, tente executar o comando de atualização novamente [10].
6. Verifique se há conflitos com outro software: verifique se não há conflitos com outros softwares ou serviços em execução no sistema. Docker ou Podman podem interferir no processo de atualização, portanto, verifique se eles são gerenciados corretamente [10].
7. Use ferramentas de diagnóstico: Utilize ferramentas de diagnóstico fornecidas pela NVIDIA para verificar a saúde do sistema antes e depois da atualização. Isso pode ajudar a identificar quaisquer problemas subjacentes que possam estar fazendo com que a atualização falhe [7].
8. Entre em contato com o suporte da NVIDIA: Se nenhuma das etapas acima resolver o problema, poderá ser necessário entrar em contato com o suporte da NVIDIA para mais assistência. Eles podem fornecer orientações específicas com base na configuração do seu sistema e nas mensagens de erro que você está vendo [4] [9].
9. Ciclo de energia do sistema: em alguns casos, pode ser necessário um ciclo de energia após uma atualização com falha. Certifique -se de seguir os procedimentos de desligamento adequados para evitar perda de dados ou danos ao sistema [5] [7].
10. Restaure a imagem do sistema: Se a atualização causou problemas significativos, pode ser necessário restaurar a imagem do sistema ao seu estado original. Isso pode ser feito usando um arquivo ISO obtido da NVIDIA Enterprise Support [3].
Seguindo estas etapas, você poderá solucionar problemas e potencialmente resolver falhas de atualização de firmware no sistema DGX A100.
Citações:
[1] https://securityonline.info/urgent-firmware-alert-nvidia-backles-critical-dgx-a100-h100-blaws/
[2] https://docs.nvidia.com/dgx/dgxa100-fw-container-release-notes/
[3] https://docs.nvidia.com/dgx/dgxa100-user-guide/updating-restoring-sw.html
[4] https://kb.brightcomputing.com/knowledge-base/how-tograde-dgx-a100-firmware-from-theadnode/
[5] https://nvcrm.my.site.com/espcommunity/s/article/dgx-a100-endless-rebooting-after-firmware-upgrade
[6] https://www.skyblue.de/uploads/datasheets/nvidia_twp_dgx_a100_system_architecture.pdf
[7] https://github.com/nvidia/deepops/blob/master/docs/deepops/dgx-diagnostic-firmware.md
[8] https://www.reddit.com/r/nvidia/comments/1c29hht/booting_a_dgx_a100_with_ventoy/
[9] https://forums.developer.nvidia.com/t/dgx-workstation-a100-firmware-update-brailed/317627
[10] https://docs.nvidia.com/dgx/dgxA100-fw-container-release-notes/dgxa100-fw-known-issues.html
[11] https://nvidia.custhelp.com/app/answers/detail/a_id/5367/~/security-bulletin:-nvidia-dgx-a100-firmware-- June-2022