Mälu efektiivsuse optimeerimine mitmepeaga varjatud tähelepanuga Deepseek-V3-s

Millist rolli mängib rafineeritud MLA mälu kasvu haldamisel Deepseek-V3-s

Deepseek-V3 rafineeritud mitmepeaga varjatud tähelepanu (MLA) mehhanism mängib olulist rolli mälu kasvu juhtimisel, vähendades märkimisväärselt mäluvajadusi mudeli järeldamisprotsessis. Siit saate teada, kuidas see aitab kaasa mälu tõhususele:

1. dünaamiline madala astme projektsioon: MLA reguleerib võtme/väärtusvektorite kokkusurumist järjestuse pikkuse põhjal. Lühemate järjestuste korral rakendatakse truuduse säilitamiseks vähem tihendamist, pikemate järjestuste (kuni 128 000 žetooni) korral kasutatakse mälu kasvu haldamiseks sügavamat tihendamist. See adaptiivne lähenemisviis tagab, et mälu kasutamine on endiselt hallatav ka väga pikkade sisendjärjestustega [2] [3].

2. Adaptiivne päringu kokkusurumine: Erinevalt Deepseek-V2-le, mis kasutas päringu tihendamiseks fikseeritud mõõtme, kasutab Deepseek-V3 päringute adaptiivset skaleerimist erinevatel kihtide sügavustel. Varased kihid kasutavad parema ekspressiivsuse saavutamiseks kõrgemamõõtmelisi päringuid, samal ajal kui sügavamad kihid tihendavad agressiivsemalt päringuid aktiveerimismälu salvestamiseks. See strateegia optimeerib mälu kasutamist, tasakaalustades ekspressiivsust tõhususega [2] [3].

3. Täiustatud köiede käitlemine: Deepseek-V3 laiendab lahtisisemise võtmete kontseptsiooni, mis oli osaliselt rakendatud V2-s. Jälgides "lahutatud jagatud võtit", vähendab mudel pikkade põlvkondade arvu numbrilist triivi, tagades stabiilse jõudluse laiendatud järjestuste kaudu [2].

4. Ühine KV salvestusruum: Erinevalt V2 -st, mis salvestas kokkusurutud võtmed ja väärtused eraldi, ühendab V3 need jagatud tihendatud esituseks. See vähendab mäluliiklust mitme sõlme järeldamise ajal, suurendades veelgi mälu tõhusust [2].

5. Kihiline adaptiivne vahemälu: kõigi kihtide kõigi kihtide kõigi möödude vahemällu salvestamise asemel prunib v3 vanemad KV-kirjed sügavamate kihtide juures. See aitab säilitada mälu kasutamist hallatavate piiride piires suurte kontekstiakendega tegelemisel [2].

Neid täpsustusi rakendades vähendab MLA märkimisväärselt DeepSEEK-V3 mälujalajälge, muutes selle suutlikuks pikkade järjestustega tõhusalt käsitseda, ilma et see kahjustaks jõudlust. See saavutatakse võtmeväärtuse paaride kokkusurumisega varjatud vektoriteks, mis vähendab andmete hulka, mida tuleb salvestada ja töödelda, kiirendades järeldust ja parandades reaalajas rakenduse võimalusi [3] [5] [8].

Tsitaadid:
]
[2] https://martinfowler.com/articles/deepseek-papers.html
]
[4] https://machinelearningatscale.substack.com/p/deepseek-v3-model
]
[6] https://www.byteplus.com/en/topic/382517
]
]