Atminties efektyvumo optimizavimas naudojant daugialypį latentinį dėmesį į „Deepseek-V3“

Kokį vaidmenį atlieka rafinuota MLA valdant atminties augimą „Deepseeek-V3“

Patobulintas kelių galvučių latentinio dėmesio (MLA) mechanizmas „Deepseeek-V3“ vaidina lemiamą vaidmenį valdant atminties augimą, žymiai sumažinant atminties reikalavimus modelio išvadų proceso metu. Štai kaip tai prisideda prie atminties efektyvumo:

1. Dinaminė žemo rango projekcija: MLA sureguliuoja raktų/vertės vektorių suspaudimą pagal sekos ilgį. Trumpesnėms sekoms ištikimybei išsaugoti, o ilgesnėms sekoms (iki 128 k žetonų) išsaugoti, o atminties augimui valdyti naudojamas gilesnis suspaudimas naudojamas gilesniam suspaudimui. Šis adaptyvusis požiūris užtikrina, kad atminties naudojimas būtų valdomas net esant labai ilgoms įvesties sekoms [2] [3].

2. Adaptyvus užklausų glaudinimas: skirtingai nuo „Deepseek-V2“, kuris naudojo fiksuotą užklausos suspaudimo matmenį, „Deepseeek-V3“ naudoja adaptyvų užklausų mastelį skirtinguose sluoksnio gyliuose. Ankstyvieji sluoksniai naudoja aukštesnio matmens užklausas, kad būtų geresnis išraiškingumas, o gilesni sluoksniai agresyviau suspaudžia užklausas, kad išsaugotų aktyvacijos atmintį. Ši strategija optimizuoja atminties naudojimą, subalansuodama išraiškingumą su efektyvumu [2] [3].

3. Patobulintas virvių tvarkymas: „Deepseek-V3“ praplečia raktų atsiejimo, kuris iš dalies buvo įgyvendintas V2, koncepciją. Stebėdamas „atsiribojusį bendrą raktą“, modelis sumažina skaitmeninį dreifą ilgomis kartomis, užtikrindamas stabilų našumą per išplėstines sekas [2].

4. Jungtinė KV saugykla: skirtingai nuo V2, kuris atskirai kaupė suspaustus klavišus ir vertes, V3 sujungia juos į bendrą suspaustą vaizdą. Tai sumažina atminties srautą kelių mazgų išvadų metu, dar labiau padidindama atminties efektyvumą [2].

5. Sluoksnio pritaikymo talpykla: užuot talpinant visus praeities žetonus visiems sluoksniams, V3 slyvos senesni KV įrašai gilesniuose sluoksniuose. Tai padeda išlaikyti atminties naudojimą valdomose ribose, kai reikia nagrinėti didelius kontekstinius langus [2].

Įdiegęs šiuos patobulinimus, MLA žymiai sumažina „Deepseeek-V3“ atminties pėdsaką, todėl jis gali efektyviai tvarkyti ilgas sekas nepakenkiant našumui. Tai pasiekiama suspaudžiant raktų vertės poras į latentinius vektorius, o tai sumažina duomenų, kuriuos reikia saugoti ir apdoroti, kiekį, taip pagreitinant išvadą ir gerinant realaus laiko taikymo galimybes [3] [5] [8].

Citatos:
[1] https://www.reddit.com/r/localllama/comments/1htwh4l/deepseekv3_is_insanely_popular_a_671b_models/
[2] https://martinfowler.com/articles/deepseek-papers.html
[3] https://mlnotes.substack.com/p/the-valleys-inging-crazy-how-deepseek
[4] https://machinelarningatscale.substack.com/p/deepseek-v3-model
[5] https://ai.plainenglish.io/deepseek-v3-how-theey-hieded-big-results-with-small-compute-fb694606d59a
[6] https://www.byteplus.com/en/topic/382517
[7] https://www.nextplatform.com/2025/01/27/how-dids-deepseek-train-its-ai-model-on-a-lot-less-and-ocrippled-hardware/
[8] https://618Media.com/en/blog/top-5-features-fe-deepseek-v3-you-Should-know/