Atmiņas efektivitātes optimizēšana ar vairāku galvas latentu uzmanību DeepSeek-V3

Kāda loma ir izsmalcinātajam MLA atmiņas pieauguma pārvaldībā DeepSEEK-V3

Rafinētajam vairāku galvas latentās uzmanības (MLA) mehānismam DeepSEEK-V3 ir izšķiroša loma atmiņas pieauguma pārvaldībā, ievērojami samazinot atmiņas prasības modeļa secinājumu procesa laikā. Lūk, kā tas veicina atmiņas efektivitāti:

1. Dinamiska zema līmeņa projekcija: MLA pielāgo atslēgas/vērtības vektoru saspiešanu, pamatojoties uz secības garumu. Īsākām sekvencēm, lai saglabātu uzticību, tiek izmantota mazāka kompresija, savukārt garākām sekvencēm (līdz 128k žetoniem) atmiņas augšanas pārvaldīšanai izmanto dziļāku saspiešanu. Šī adaptīvā pieeja nodrošina, ka atmiņas lietošana joprojām ir pārvaldāma pat ar ļoti garām ievades sekvencēm [2] [3].

2. Adaptīvā vaicājumu saspiešana: Atšķirībā no DeepSeek-V2, kas izmantoja fiksētu dimensiju vaicājumu saspiešanai, DeepSEEK-V3 izmanto adaptīvu vaicājumu mērogošanu dažādos slāņa dziļumos. Agrīnie slāņi izmanto augstākas dimensijas vaicājumus labākai izteiksmīgumam, savukārt dziļāki slāņi agresīvāk saspiež vaicājumus, lai saglabātu aktivizācijas atmiņu. Šī stratēģija optimizē atmiņas izmantošanu, līdzsvarojot izteiksmīgumu ar efektivitāti [2] [3].

3. Uzlabota virvju apstrāde: DeepSEEK-V3 paplašina atslēgu atdalīšanas jēdzienu, kas daļēji tika ieviests V2. Izsekojot "atsaistīto koplietotās atslēgas", modelis samazina skaitlisko novirzi garās paaudzēs, nodrošinot stabilu veiktspēju, salīdzinot ar paplašinātām sekvencēm [2].

4. Kopīgais KV krātuve: Atšķirībā no V2, kas atsevišķi saglabāja saspiestus taustiņus un vērtības, V3 tos apvieno kopīgā saspiestā attēlojumā. Tas samazina atmiņas trafiku vairāku mezglu secinājumu laikā, vēl vairāk uzlabojot atmiņas efektivitāti [2].

5. Adaptīvā kešatmiņa pēc kārtas: tā vietā, lai kešatmiņā saglabātu visus pagātnes žetonus visiem slāņiem, V3 plūmes vecāki KV ieraksti pie dziļākiem slāņiem. Tas palīdz saglabāt atmiņas izmantošanu pārvaldāmās robežās, strādājot ar lieliem konteksta logiem [2].

Īstenojot šos uzlabojumus, MLA ievērojami samazina DeepSEEK-V3 atmiņas nospiedumu, padarot to spējīgu efektīvi apstrādāt garās sekvences, neapdraudot veiktspēju. Tas tiek panākts, saspiežot atslēgas vērtības pārus latentos vektoros, kas samazina datu daudzumu, kas jāuzglabā un jāapstrādā, tādējādi paātrinot secinājumus un uzlabojot reālā laika lietojumprogrammu iespējas [3] [5] [8].

Atsauces:
[1] https://www.reddit.com/r/localllama/comments/1htwh4l/deepseekv3_is_insanely_popular_a_671b_models/
[2] https://martinfowler.com/articles/deepseek-papers.html
[3.]
[4] https://machinelearningatscale.substack.com/p/deepseek-v3-model
[5] https://ai.plainenglish.io/deepseek-v3-how-they-achate-big-results-with-slall-compute-fb694606d59a
[6] https://www.byteplus.com/en/topic/382517
.
[8] https://618media.com/en/blog/top-5-features-of-depseek-v3-you-should-know/