„Deepseek-V3“: Pažanga ir naujovės didelių kalbų modeliuose

„Deepseek-V3“ pateikia keletą reikšmingų pažangų dėl savo pirmtako „Deepseeek-V2“, pažymėdamas pastebimą didelių kalbų modelių galimybių ir efektyvumo evoliuciją.

Pagrindiniai skirtumai

1. Architektūra ir parametrai
-„Deepseeek-V3“ pasižymi ekspertų mišinio (MOE) architektūra, iš viso 671 milijardo parametrų, suaktyvinančių tik 37 milijardus kiekvieno žetono. Šis dizainas optimizuoja išteklių naudojimą išlaikant aukštą našumą [1] [3].
- Atvirkščiai, „Deepseek-V2“ taip pat panaudojo MOE sistemą, tačiau turėjo mažiau parametrų ir mažiau efektyvių apkrovos balansavimo strategijų, todėl mokymo metu buvo didesnė komunikacijos pridėtinė vertė [2].

2. Įkelkite balansavimo naujoves
-„Deepseeek-V3“ naudojama pagalbinė apkrovos balansavimo strategija be nuostolių, o tai pagerina modelio našumą be tradicinių trūkumų, susijusių su apkrovos balansavimu MOE architektūroje. Ši naujovė užtikrina, kad visi žetonai būtų efektyviai apdorojami treniruotės ir išvados metu, pašalinant žetonų kritimą [5] [7].
- „Deepseeek-V2“ reikėjo pagalbinių nuostolių mechanizmų, kurie dėl padidėjusių ryšių sąnaudų galėtų pabloginti našumą [2].

3. Daugialypė prognozė
-Įdiegus daugialypį prognozavimo tikslą „Deepseeek-V3“, padidėja mokymo efektyvumas ir išvados galimybės. Tai leidžia modeliui vienu metu numatyti kelis žetonus, žymiai pagreitindamas apdorojimo laiką ir pagerinti tikslumą [1] [4].
- „Deepseeek-V2“ neįtraukė šios funkcijos, kuri apribojo jos efektyvumą atliekant išvadų užduotis [2].

4. Mokymo efektyvumas
-„Deepseeek-V3“ mokymo procesas yra ypač efektyvus, reikalaujantis tik 2,788 mln. GPU valandų, o tai yra reikšmingas sumažinimas, palyginti su „Deepseek-V2“ mokymo reikalavimais. Šis efektyvumas pasiekiamas naudojant pažangius mišrius tikslumo metodus (FP8) ir optimizuotus treniruočių sistemas [1] [5].
- „Deepseek-V2“ mokymo metodika buvo mažiau optimizuota, todėl panašių užduočių vartojimas buvo didesnis [2].

5. Spektaklio etalonai
-Kalbant apie našumą, „Deepseeek-V3“ pasiekė moderniausių rezultatų įvairiuose etalonuose, įskaitant matematinius samprotavimus ir kodavimo užduotis, kurių balai, tokie kaip 87,1% MMLU ir 87,5% BBH ** [1] [3] [3 ].
- Nors „Deepseek-V2“ reikšmingai prisidėjo prie kalbos modeliavimo, jo veiklos metrika nebuvo tokia konkurencinga kaip V3 [2].

Apibendrinant galima pasakyti, kad „Deepseek-V3“ yra didelis atnaujinimas, palyginti su „Deepseeek-V2“, naudojant patobulintą architektūrą, novatoriškus apkrovos balansavimo metodus, patobulintą treniruočių efektyvumą ir puikų našumą keliuose etalonuose. Šie pasiekimai apibūdina „Deepseek-V3“ kaip pagrindinį pasirinkimą didelių kalbų modelių srityje.

Citatos:
[1] https://www.deepseekv3.com/en
[2] https://stratechery.com/2025/deepseek-faq/
[3] https://deepseekv3.org
[4] https://daily.dev/blog/deepseek-everything-you-reed-to-know-out-outhis-new-llm-in-on-oon-place
[5] https://arxiv.org/html/2412.19437v1
[6] https://www.interconnects.ai/p/deepseek-v3-and-the-actual-cost-of
[7] https://adaci.org/deepseek-v3-oxplied-optimizing-fefictity-and-cale/
[8] https://www.linkedin.com/pulse/deepseek-revolutioning-ai-open-ource-reasoning-20-ramachandran-xakme

Kokie yra pagrindiniai skirtumai tarp „Deepseeek-V3“ ir „DeepSeek-V2“

Pagrindiniai skirtumai