Gradiento kontrolės taškas JAX: didelių ML modelių atminties optimizavimas

Kaip gradiento kontrolės taškas padeda sumažinti atminties naudojimą JAX

Gradiento patikrinimo taškas JAX, įdiegtas naudojant „Jax.CheckPoint“ (dar vadinamą „Jax.remat“), yra technika, skirta sumažinti atminties naudojimą apskaičiuojant gradientus mašinų mokymosi modeliuose. Šis metodas veikia selektyviai saugant tarpines vertes į priekį skaičiavimo metu ir pakartotinai juos pakartotinai sujungiant per atgalinį leidimą, užuot saugoję visas tarpines vertes.

Kaip tai veikia:

1. Atminties mažinimas: nepaisydamas visų tarpinių verčių, gradiento patikrinimo taškas sumažina smailės atminties naudojimą, reikalingą gradiento skaičiavimams. Tai ypač naudinga dideliems modeliams, kai tarpinės aktyvacijos gali sunaudoti reikšmingą atmintį.

2. Kompromisas: Atminties naudojimo sumažėjimas padidėja padidėjusio skaičiavimo laiko kaina. Atgal praėjimo metu kai kurios tarpinės vertės yra pakartotinai išdėstytos, užuot gaunamos iš atminties, o tai gali sukelti papildomą skaičiavimo pridėtinę vertę.

3. Veiksmingumas: Gradiento patikrinimo efektyvumas mažinant atminties naudojimą priklauso nuo modelio dydžio ir sudėtingumo. Mažesniems modeliams poveikis gali būti ribotas dėl pagrindinių optimizacijų, tokių kaip XLA ir JIT kompiliacija [2] [3]. Tačiau didesniems modeliams, turintiems reikšmingą tarpinį aktyvaciją, patikrinimo taškai gali žymiai sumažinti atminties reikalavimus.

4. Įgyvendinimas: JAX galite pritaikyti „jax.checkpoint“ konkrečioms jūsų modelio funkcijoms, kad kontroliuotumėte, kurie tarpiniai produktai yra išsaugoti, palyginti su iš naujo. Tai leidžia subalansuoti atminties efektyvumą ir skaičiavimo sąnaudas [1] [3].

Apskritai, „Jax“ gradiento patikrinimas yra vertingas įrankis, skirtas atminties naudojimui valdyti didelio masto mašininio mokymosi skaičiavimus, nors jo efektyvumas gali skirtis atsižvelgiant į konkrečią modelio architektūrą ir skaičiavimo aplinką.

Citatos:
[1] https://app.studyraid.com/en/read/11969/381948/memory-optimization-methods
[2] https://github.com/google/jax/issues/19822
[3] https://docs.jax.dev/en/latest/gradient-checkpointing.html
[4] https://prouveringings.mlsys.org/paper_files/paper/2023/file/8a27bb69950c0b46cdb36d10e5514cc8paper-mlsys2023.pdf
[5] https://arxiv.org/abs/2412.11810
[6] https://stackoverflow.com/questions/52795440/memory-angaving-herals-or-memory-check-pointting-in-keras
[7] https://discuss.pytorch.org/t/gradient-checkpointing-does-not-reduce-memory-usage/71421
[8] https://openreview.net/forum?id=QHXJQOMDDF