Kā konfigurēt Jax, lai izvairītos no ārpusemorijas (OOM) kļūdām

Kā es varu konfigurēt Jax, lai izvairītos no OOM kļūdām

Lai konfigurētu Jax un izvairītos no ārpus atmiņas (OOM) kļūdām, varat izmantot vairākas stratēģijas:

1. Atspējot preallocation: Pēc noklusējuma Jax preallocates 75% no kopējās GPU atmiņas. Jūs varat atspējot šo uzvedību, iestatot vides mainīgo `xla_python_client_preallocate = false`. Tas pēc vajadzības piešķirs atmiņu, samazinot OOM kļūdu iespējamību, bet potenciāli palielinot atmiņas sadrumstalotību [1] [3].

2. Pielāgojiet atmiņas frakciju: ja ir iespējota prealLocation, varat pielāgot GPU atmiņas frakciju, kuru JAX preallocates, izmantojot `xla_python_client_mem_fraction = .xx`, kur` .xx` ir vēlamais procents. Šīs vērtības pazemināšana var palīdzēt novērst OOM kļūdas startēšanas laikā [1] [3].

3. Izmantojiet platformas sadalītāju: iestatīšana `XLA_PYTHON_CLIENT_Allocator = platforma` liek JAX piešķir tieši to, kas nepieciešams pēc pieprasījuma, un nodot neizmantotu atmiņu. Tas ir lēns un nav ieteicams vispārējai lietošanai, bet var būt noderīgs OOM problēmu atkļūdošanai vai atmiņas lietošanas samazināšanai [1] [3].

4. Izvairieties no vienlaicīgiem procesiem: vairāku Jax procesu palaišana vai Jax izmantošana līdzās GPU Tensorflow var izraisīt OOM kļūdas. Izmantojiet `XLA_PYTHON_CLIENT_MEM_FRACTION`, lai atbilstoši piešķirtu atmiņu katram procesam, vai iestatiet` XLA_PYTHON_CLIENT_PREALLOCTE = FALSE` [1] [3].

5. Pārvaldiet ierīces blokus: pārliecinieties, vai objekti "Devicearray" tiek pareizi pārvaldīti. Izmantojiet `DEVICE_GET`, lai iegūtu datus resursdatorā un pārliecinātos, ka nav atsauces uz" Devicearray "objektiem, kas nav brīvas ierīces atmiņa [2].

6. Optimizējiet modeli un datus: apsveriet modeļa un datu optimizēšanu vai optimizēšanu, lai samazinātu atmiņas prasības. Tas var būt īpaši efektīvs, strādājot ar lielām datu kopām vai sarežģītiem modeļiem [5].

Atsauces:
[1] https://kolonist26-jax-kr.readthedocs.io/en/latest/gpu_memory_allocation.html
[2] https://github.com/google/flax/discussions/929
[3] https://jax.readthedocs.io/en/latest/gpu_memory_allocation.html
[4] https://docs.jax.dev/en/latest/faq.html
[5] https://forums.developer.nvidia.com/t/batching-mcmc-oom-issue-in-numpyro-jax/321026
[6.]
,
[8] https://community.fabric.microsoft.com/t5/desktop/optimizing-measures-to-avoid out-memory-errors/td-p/570067