„Deepseek Coder V1“ ir „V2“ yra pažangios AI modeliai, skirti kodavimo užduotims, tačiau jie pasižymi keliais reikšmingais architektūros, galimybių ir našumo skirtumais.
Pagrindiniai skirtumai
Architektūra ir dizainas **
- „Deepseee Coder V1“ buvo pagrindinis modelis, daugiausia dėmesio skirdamas kodų generavimui ir analizei. Jis buvo pastatytas naudojant tradicinę transformatoriaus architektūrą ir turėjo ribotą 16K žetonų ilgį.-„Deepseee Coder V2“, išleistas vėliau, naudoja patobulintą ekspertų mišinio (MOE) architektūrą, kuri leidžia efektyviau apdoroti sudėtingesnes užduotis. Šis modelis palaiko daug ilgesnį 128k žetonų konteksto ilgį, žymiai pagerindamas jo sugebėjimą tvarkyti didesnius kodų fragmentus ir sudėtingesnes užklausas.
mokymo duomenys ir našumas **
- Treniruotės duomenys: „Coder V1“ buvo apmokytas maždaug 2 trilijonais žetonais, kurių sudaro 87% kodo ir 13% natūralios kalbos. Priešingai, „Coder V2“ dar labiau iš anksto mokėsi su papildomais 6 trilijonais žetonais, padidindamas jo kodavimo ir matematinių samprotavimo galimybes, viršijančias jo pirmtako.-Našumo etalonai: „Coder V2“ pademonstravo puikų našumą įvairiuose kodavimo etalonuose, palyginti su „Coder V1“ ir kituose uždaro kodo modeliuose, tokiuose kaip „GPT4-Turbo“. Tai ypač skiriama atliekant užduotis, susijusias su matematiniais samprotavimais kode, parodant pažangą tiek samprotavime, tiek bendrosios kalbos galimybės.
Programavimo kalbos palaikymas **
- „Coder V1“ palaikė ribotą programavimo kalbų spektrą. Tačiau „Coder V2“ dramatiškai išplėtė šią paramą nuo 86 iki 338 programavimo kalbų, todėl kūrėjams, dirbantiems įvairiose kodavimo aplinkose, jis tapo daug universalesnis.parametrų skaičius **
- Abu modeliai turi tą patį bendrą parametrų skaičių - 236 milijardus **; Tačiau aktyvūs parametrai šiek tiek skiriasi. „Coder V2“ savo baziniame modelyje turi 2,4 milijardo aktyvių parametrų ir 21 milijardą savo instrukcijų modelio, optimizuotas atliekant instrukcijų vykdomas užduotis.Naudokite atvejus **
- Nors „Deepseek Coder V1“ buvo tinkamas pagrindinėms kodavimo užduotims, „Coder V2“ yra specialiai optimizuotas platesniam kodavimo programoms, įskaitant, bet tuo neapsiribojant, kodų užbaigimą, įterpimą, automatizuotą kodų peržiūrą ir našumo optimizavimo pasiūlymus.Apibendrinant galima pasakyti, kad „Deepseek Coder V2“ yra reikšmingas atnaujinimas per V1, naudojant pažangią architektūrą, išplėstą programavimo kalbos palaikymą, patobulintą mokymo duomenų panaudojimą ir patobulintą našumo metriką įvairiuose kodavimo etalonuose.
Citatos:
[1] https://huggingface.co/deepseek-ai/deepseek-coder-v2-base
[2] https://blog.promptlayer.com/deepseek-v2-vs-coder-v2-a-comparative-analysis/
[3] https://play.ht/blog/deepseek-v3-vs-r1-vs-coder/
[4] https://arxiv.org/html/2406.11931v1
[5] https://deepgram.com/learn/best-local-coding-llm
[6] https://www.reddit.com/r/localllama/comments/1dhx449/deepseekcoderv2_breaking_the_barrier_of/
[7] https://deepseekcoder.github.io
[8] https://arxiv.org/pdf/2406.11931.pdf
[9] https://github.com/deepseek-ai/deepseek-coder/?tab=readme-ov-file