DeepSeek Codeer: veiktspējas optimizēšana ar 87% kodu un 13% dabisko valodu

Kā 87% koda sastāvs un 13% dabiskā valoda ietekmē DeepSeek kodētāja veiktspēju

DeepSeek kodētāja veiktspēju būtiski ietekmē tā sastāvs 87% kods un 13% dabiskā valoda. Šis unikālais maisījums ļauj modelim izcelties dažādos kodēšanas uzdevumos, vienlaikus saglabājot spēcīgu kontekstuālo izpratni par programmēšanas valodām.

koda kompozīcijas ietekme

1. Uzlabota kodēšanas veiktspēja: lielais koda procents apmācības datos ļauj DeepSeek kodētājam sasniegt vismodernākos rezultātus kodējošos etalonos, piemēram, humaneval un MBPP, rezultātiem sasniedzot līdz 90,2% precizitāte ** [1] [ 5]. Šī veiktspēja pārsniedz daudzus esošos atvērtā koda un patentētus modeļus, norādot, ka modelis ir īpaši lietpratīgs, ģenerējot precīzus koda fragmentus.

2. Dabiskās valodas izpratne: 13% dabiskās valodas datu iekļaušana, galvenokārt angļu un ķīniešu valodā, uzlabo modeļa spēju izprast un ģenerēt komentārus, dokumentāciju un lietotāja instrukcijas. Šis lingvistiskais konteksts ir būtisks uzdevumiem, kuriem nepieciešama ne tikai kodu ģenerēšana, bet arī skaidrojumi vai mijiedarbība dabiskajā valodā, padarot modeli daudzpusīgu dažādos programmēšanas scenārijos [2] [4].

3. Kontekstuālā izpratne: DeepSeek Coder izmanto repozitorija līmeņa apmācību, kas tai ļauj izprast dažādu failu atkarības projektos. Šo iespēju pastiprina plašie koda dati, ļaujot tai atrisināt sarežģītus kodēšanas problēmas, kas efektīvi aptver vairākus failus [1]. Modeļa spēja uzturēt kontekstu garajām sekvencēm (līdz 16 384 žetoniem, kas ir paplašināma līdz 128k **), vēl vairāk uzlabo tā veiktspēju liela mēroga programmatūras projektos [1].

4. Middle (FIM) apmācība: Šī novatoriskā apmācības stratēģija ļauj modelim ģenerēt kodu, aizpildot nepilnības esošajos kodu blokos. Ievērojams koda datu daudzums atbalsta šo funkciju, uzlabojot modeļa atkļūdošanas un koda pabeigšanas spējas, kas ir kritiskas izstrādātājiem [1] [3].

5. Instrukcijas noregulēšana: modelim tiek veikta instrukcijas noregulēšana ar papildu datiem, kas ietver gan kodu, gan dabiskās valodas instrukcijas. Šis process uzlabo savu spēju precīzi reaģēt uz lietotāja vaicājumiem un ģenerēt kontekstā nozīmīgus koda fragmentus, izmantojot gan kodēšanas kompetenci, gan lingvistiskās iespējas [1] [5].

Rezumējot, īpašais 87% koda un 13% dabiskās valodas sastāvs DeepSeek kodētājam nodrošina stabilu sistēmu, lai efektīvi izprastu un ģenerētu programmēšanu. Šis līdzsvars ne tikai uzlabo tā kodēšanas veiktspēju, bet arī nodrošina, ka tas var efektīvi sazināties cilvēku valodā, padarot to par spēcīgu rīku izstrādātājiem.

Atsauces:
[1] https://blog.premai.io/open-source-code-language-models-depseek-qwen-and-beyond/
[2] https://dataloop.ai/library/model/theBloke_deepseek-coder-67b-base-awq/
[3] https://github.com/deepseek-ai/deepseek-coder/?tab=readme-ov-file
[4] https://huggingface.co/deepseek-ai/deepseek-coder-6.7b bāzes
[5] https://arxiv.org/html/2406.11931v1
[6] https://arxiv.org/pdf/2401.14196.pdf
[7] https://huggingface.co/deepseek-ai/deepseek-coder-1.3b bāzes
[8] https://dataloop.ai/library/model/deepseek-ai_deepseek-coder-67b-instruct/