Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon Milyen lépéseket kell tennem, ha a DGX A100 rendszerem nem reagál a firmware frissítési folyamat során


Milyen lépéseket kell tennem, ha a DGX A100 rendszerem nem reagál a firmware frissítési folyamat során


Ha a DGX A100 rendszere nem reagál a firmware frissítési folyamat során, kövesse ezeket a lépéseket a hibaelhárításhoz és a problémát potenciálisan megoldva:

1. Teljesítményciklus A rendszer: Ha a rendszer teljesen nem reagál, és nem érhető el SSH -n vagy a BMC felületen keresztül, próbálja meg a Power Cycling It. Ez magában foglalja a rendszer leállítását a BMC -n keresztül (Baseboard Management Controller), ha lehetséges, vagy fizikailag kihúzza az összes tápegységet, majd csatlakoztatja őket. Ez néha megoldhatja a firmware -frissítésekkel kapcsolatos kérdéseket, amelyek miatt a rendszer lógott [4].

2. Ellenőrizze a BMC naplóit: Használja a BMC felületet, hogy ellenőrizze azokat a hibaüzeneteket vagy naplókat, amelyek jelezhetik, hogy mi történt rosszul a frissítés során. Ez utalhat arra, hogy melyik összetevő sikertelen, vagy ha a frissítési folyamat során bármilyen konkrét hibát tapasztaltak.

3. Ellenőrizze a hálózati kapcsolatot: Győződjön meg arról, hogy a rendszer stabil hálózati csatlakozással rendelkezik. Időnként a hálózati problémák a frissítések meghibásodását vagy felfüggesztését okozhatják. Ellenőrizze, hogy a rendszer hozzáférhet -e a szükséges adattárakhoz vagy a frissítési szerverekhez, ha a frissítést a hálózaton keresztül hajtják végre [2].

4. Keresse újra a firmware frissítését: Ha a rendszer egy energiaciklus után reagál, próbálja meg újra futtatni a firmware frissítési folyamatát. Győződjön meg arról, hogy az NVIDIA támogatási portálján elérhető legújabb firmware verziót használja [3]. Ha a PXE Boot -ot használja a frissítésekhez, ellenőrizze, hogy a PXE konfiguráció helyes -e, és hogy a firmware frissítési képe megfelelően van -e a fejjelítőn [3].

5. Vegye fel a kapcsolatot az NVIDIA támogatásával: Ha a probléma továbbra is fennáll a fenti lépések megkísérlése után, akkor szükség lehet az NVIDIA támogatásának további támogatásáért. Konkrét útmutatást tudnak nyújtani a felmerült hibaüzenetek alapján, és rendelkezésre állhatnak további hibaelhárítási lépések vagy javítások [3] [7].

6. Ellenőrizze az ismert kérdéseket: Lásd az NVIDIA dokumentációját a DGX A100 firmware -frissítéseivel kapcsolatos ismert kérdésekben. Néhány frissítésnek lehetnek speciális megoldása vagy követelményei, amelyeket be kell tartani a közös buktatók elkerülése érdekében [5].

7. Ellenőrizze a rendszer eseménynaplóit: Használjon olyan eszközöket, mint az „ipMitool” a rendszer eseménynaplójának (SEL) törléséhez és a releváns hibaüzenetek ellenőrzéséhez. Ez segíthet azonosítani a hardver- vagy firmware -problémákat, amelyek hozzájárulhatnak a problémához [4].

8. Kézi beavatkozás: Bizonyos esetekben kézi beavatkozásra lehet szükség a konkrét alkatrészek frissítéséhez. Ez magában foglalhatja az egyes zászlók vagy parancsok használatát az egyes összetevők megcélzásához a frissítéshez, a firmware frissítési dokumentációban leírtak szerint [1].

Ezen lépések betartásával képesnek kell lennie arra, hogy diagnosztizálja és potenciálisan megoldja a DGX A100 rendszer firmware -frissítéseivel kapcsolatos problémákat.

Idézetek:
[1] https://github.com/nvidia/deepops/blob/master/docs/deepops/dgx-diagnostic-firmware.md
[2] https://docs.nvidia.com/dgx/dgxa100-user-guide/updating-restoring-sw.html
[3] https://kb.brightcomputing.com/knowledge-base/how-to-grade-dgx-a100-firmware-mhe-hignode/
[4] https://forums.developer.nvidia.com/t/dgx-a100-nangs-with-jffs2-errors/296729
[5] https://docs.nvidia.com/dgx/dgxa100-fw-container-reelease-notes/dgxa100-fw-sudesues.html
[6] https://github.com/nvidia/nvidia-container-runtime/issues/85
[7] https://forums.developer.nvidia.com/t/dgx-workstation-a100-firmware-date-failed/317627
[8] https://cve.mitre.org/cgi-bin/cvey.cgi