„Deepseek Coder“: našumo optimizavimas naudojant 87% kodą ir 13% natūralią kalbą

Kaip 87% kodo ir 13% natūralios kalbos sudėtis daro įtaką „Deepseeek“ koderio veikimui

„Deepseek Coder“ našumą didelę įtaką daro 87% kodo ir 13% natūralios kalbos sudėtis. Šis unikalus mišinys leidžia modeliui tobulėti atliekant įvairias kodavimo užduotis, išlaikant tvirtą kontekstinį programavimo kalbų supratimą.

kodo sudėties poveikis

1. Patobulintas kodavimo našumas: Didelis kodų procentas mokymo duomenyse suteikia galimybę „Deepseeek“ koderiui pasiekti moderniausius rezultatus tokiuose kodavimo etalose kaip „Humaneval“ ir MBPP, o balai siekia iki 90,2% tikslumo ** [1] [1] [1] [1] [1] [1] 5]. Šis našumas pranoksta daugybę esamų atvirojo kodo ir patentuotų modelių, tai rodo, kad modelis yra ypač tinkamas generuoti tikslius kodo fragmentus.

2. Natūralios kalbos supratimas: 13% natūralių kalbos duomenų įtraukimas, visų pirma anglų ir kinų kalba, padidina modelio sugebėjimą suprasti ir generuoti komentarus, dokumentus ir vartotojo instrukcijas. Šis kalbinis kontekstas yra labai svarbus atliekant užduotis, kurioms reikia ne tik kodo generavimo, bet ir paaiškinimų ar sąveikos natūralia kalba, todėl modelis yra universalus įvairiuose programavimo scenarijuose [2] [4].

3. Kontekstinis sąmoningumas: „Deepseeek Coder“ moko saugyklos lygio mokymus, kurie leidžia suprasti kryžminių failų priklausomybes projektuose. Šią galimybę sustiprina išsamios kodo duomenys, leidžiantys išspręsti sudėtingus kodavimo iššūkius, kurie efektyviai apima kelis failus [1]. Modelio gebėjimas išlaikyti kontekstą per ilgąsias sekas (iki 16 384 žetonų, ištiestų iki 128 k **) dar labiau padidina jo našumą didelio masto programinės įrangos projektuose [1].

4. „Fabile-in-Middle“ (FIM) mokymas: Ši novatoriška mokymo strategija leidžia modeliui generuoti kodą užpildant spragas esamuose kodo blokuose. Didelis kodo duomenų kiekis palaiko šią funkciją, pagerinant modelio derinimo ir kodo užbaigimo sugebėjimus, kurie yra labai svarbūs kūrėjams [1] [3].

5. Instrukcijų derinimas: Modelyje pateikiami instrukcijos su papildomais duomenimis, į kuriuos įeina ir kodas, ir natūralios kalbos instrukcijos. Šis procesas patikslina jo sugebėjimą tiksliai reaguoti į vartotojo užklausas ir generuoti kontekstines kodo fragmentus, pasinaudojant jo kodavimo patirtimi ir kalbinėmis galimybėmis [1] [5].

Apibendrinant galima pasakyti, kad konkreti 87% kodo ir 13% natūralios kalbos sudėtis suteikia „Deepseeek Coder“ tvirtą pagrindą, kaip efektyviai suprasti ir generuoti programavimo turinį. Šis balansas ne tik pagerina jo kodavimo našumą, bet ir užtikrina, kad ji galėtų efektyviai bendrauti žmonių kalba, todėl tai yra galinga priemonė kūrėjams.

Citatos:
[1] https://blog.premai.io/open-ource-code-code-language-models-deepseek-qwen-and-beyond/
[2] https://dataloop.ai/library/model/thebloke_deepseek-coder-67b-base-awq/
[3] https://github.com/deepseek-ai/deepseek-coder/?tab=readme-ov-file
[4] https://huggingface.co/deepseek-ai/deepseek-coder-6.7b-base
[5] https://arxiv.org/html/2406.11931v1
[6] https://arxiv.org/pdf/2401.14196.pdf
[7] https://huggingface.co/deepseek-ai/deepseek-coder-1.3b-base
[8] https://dataloop.ai/library/model/deepseek-ai_deepseek-coder-67b-instruct/