Optimizacija učinkovitosti pomnilnika z več glavno latentno pozornostjo v Deepseek-V3

Kakšno vlogo ima rafinirani MLA pri upravljanju rasti spomina v Deepseek-V3

Mehanizem rafinirane večglave latentne pozornosti (MLA) v Deepseek-V3 ima ključno vlogo pri upravljanju rasti spomina, saj znatno zmanjša potrebe pomnilnika med postopkom sklepanja modela. Tukaj je opisano, kako prispeva k učinkovitosti spomina:

1. dinamična nizko ranška projekcija: MLA prilagodi stiskanje vektorjev ključa/vrednosti na podlagi dolžine zaporedja. Pri krajših zaporedjih se za ohranjanje zvestobe uporablja manj stiskanja, medtem ko se za daljše zaporedje (do 128k žetonov) uporablja globlje stiskanje za upravljanje rasti pomnilnika. Ta prilagodljivi pristop zagotavlja, da uporaba pomnilnika ostane obvladljiva tudi z zelo dolgimi vhodnimi sekvencami [2] [3].

2. Prilagodljivo stiskanje poizvedb: Za razliko od Deepseek-V2, ki je uporabila fiksno dimenzijo za stiskanje poizvedb, Deepseek-V3 uporablja prilagodljivo skaliranje poizvedb na različnih globinah plasti. Zgodnje plasti uporabljajo večdimenzionalne poizvedbe za boljšo ekspresivnost, globlje plasti pa bolj agresivno stisnejo poizvedbe, da shranijo aktivacijski pomnilnik. Ta strategija optimizira porabo pomnilnika z uravnoteženjem ekspresivnosti z učinkovitostjo [2] [3].

3. Izboljšano ravnanje z vrvmi: Deepseek-V3 razširja koncept ključev ločevanja, ki je bil delno izveden v V2. Model s sledenjem "ločenega skupnega ključa" zmanjšuje numerični premik v dolgih generacijah, kar zagotavlja stabilno delovanje nad podaljšanimi zaporedji [2].

4. Skupni KV shranjevanje: Za razliko od V2, ki je shranjene stisnjene tipke in vrednosti ločeno, jih V3 združi v skupno stisnjeno predstavitev. To zmanjšuje pomnilniški promet med sklepanjem na več vozliščih, kar še poveča učinkovitost pomnilnika [2].

5. Prilagodljivi predpomnilnik plasti: Namesto da bi predpomnili vse pretekle žetone za vse plasti, V3 obrezovanja starejših vnosov KV v globljih plasteh. To pomaga ohranjati porabo pomnilnika v obvladljivih mejah pri obravnavi velikih kontekstnih oken [2].

Z izvajanjem teh izboljšav MLA znatno zmanjša pomnilniški odtis Deepseek-V3, zaradi česar je sposoben učinkovito ravnati z dolgimi zaporedji, ne da bi pri tem ogrozila uspešnost. To dosežemo s stiskanjem parov ključne vrednosti v latentne vektorje, kar zmanjšuje količino podatkov, ki jih je treba shraniti in obdelati, s čimer pospeši sklepanje in izboljšanje sposobnosti uporabe v realnem času [3] [5] [8].

Navedbe:
[1] https://www.reddit.com/r/localllama/comments/1htwh4l/deepseekv3_is_insanely_popular_a_671b_models/
[2] https://martinfowler.com/articles/deepseek-papers.html
[3] https://mlnotes.substack.com/p/the-valleys-going-crazy-how-deepseek
[4] https://machinelearnAtscale.substack.com/p/deepseek-v3-model
[5] https://ai.plainenglish.io/deepseek-v3-how-they-hieved-big-results-with-small-compute-fb694606d59a
[6] https://www.bytePlus.com/sl/topic/382517
[7] https://www.nextplatform.com/2025/01/27/how-did-deepseek-train-its-ai-model-on-a-lot-ress-and-crippled-wardware/
[8] https://618media.com/sl/blog/top-5-features-of-deepseek-v3-you-should-know/