Sådan konfigureres JAX for at undgå fejl uden for hukommelsen (OOM)

Hvordan kan jeg konfigurere Jax for at undgå OOM -fejl

For at konfigurere JAX og undgå fejl uden for hukommelsen (OOM) kan du bruge flere strategier:

1. Deaktiver Preallocation: JAX Preallocates som standard 75% af den samlede GPU -hukommelse. Du kan deaktivere denne opførsel ved at indstille miljøvariablen `xla_python_client_preallocate = falsk '. Dette tildeler hukommelse efter behov, hvilket reducerer sandsynligheden for OOM -fejl, men potentielt øger hukommelsesfragmentering [1] [3].

2. Juster hukommelsesfraktionen: Hvis preallokation er aktiveret, kan du justere den brøkdel af GPU -hukommelse, som Jax Preallocates ved hjælp af `xla_python_client_mem_fraction = .xx`, hvor` .xx` er den ønskede procentdel. Sænkning af denne værdi kan hjælpe med at forhindre OOM -fejl ved opstart [1] [3].

3. brug platformallokator: indstilling `xla_python_client_allocator = platform` får Jax til at tildele nøjagtigt, hvad der er behov for efterspørgsel og omlægning af ubrugt hukommelse. Dette er langsomt og anbefales ikke til generel brug, men kan være nyttigt til fejlsøgning af OOM -problemer eller minimere hukommelsesforbruget [1] [3].

4. Undgå samtidige processer: At køre flere JAX -processer eller bruge JAX sammen med GPU -tensorflow kan føre til OOM -fejl. Brug `xla_python_client_mem_fraction` til at allokere hukommelse korrekt til hver proces, eller indstille` xla_python_client_preallocate = falsk` [1] [3].

5. Administrer enhedsarrays: Sørg for, at `DeviceArray` -objekter styres korrekt. Brug `Device_Get` til at hente data til værten og sikre, at der ikke er nogen henvisninger til` DeviceArray` -objekter, der er tilbage til gratis enhedshukommelse [2].

6. Optimer model og data: Overvej batching eller optimering af din model og data for at reducere hukommelseskravene. Dette kan være særligt effektivt, når man arbejder med store datasæt eller komplekse modeller [5].

Citater:
[1] https://kolonist26-jax-kr.readthedocs.io/en/latest/gpu_memory_allocation.html
[2] https://github.com/google/flax/discussioner/929
[3] https://jax.readthedocs.io/en/latest/gpu_memory_allocation.html
[4] https://docs.jax.dev/en/latest/faq.html
[5] https://forums.developer.nvidia.com/t/batching-mcmc-oom-easue-in-numpyro-jax/321026
[6] https://www.ibm.com/docs/en/was-liberty/base?topic=liberty-runtime- miljø-kendte-drestriktions
)
[8] https://community.fabric.microsoft.com/t5/desktop/optimizing-measures-to-adoid-out-of-memory-rors/td-p/570067