Deepseek-V2 ja DeepSEEK-V3 asjatundlike marsruutimismehhanismide peamised erinevused võib kokku võtta järgmiselt:
Deepseek-V2 asjatundlik marsruutimine
-Seadme piiratud marsruutimismehhanism: Deepseek-V2 kasutab seadme piiratud marsruutimismehhanismi ekspertide levitamiseks mitme seadme kaudu. See lähenemisviis tagab, et iga sümboolse sihtrühma eksperdid levivad piiratud arvu seadmete vahel, valides tavaliselt nendest seadmetest tipp-K-eksperdid. See strateegia aitab hallata kommunikatsiooni üldkulusid ja tagab tõhusa paralleelse töötlemise [1] [5].
-Koormuse tasakaalu lisakaod: DeepSEEK-V2 tutvustab kolme tüüpi abipunktide ekspertide tasemel, seadmetasandil ja kommunikatsioonitasandil, et säilitada koormuse tasakaal treeningu ajal. Need kaotused aitavad takistada marsruutimise kokkuvarisemist, tagades, et ükski ekspert ei kasutata liiga palju, samas kui teised jäävad alakasutatavaks [1] [6].
- Ekspertide arv ja aktiveerimine: Deepseek-V2-l on 160 eksperti ja kaks jagatud eksperti, järeldamise ajal aktiveeritakse vaid kuus eksperti. See valikuline aktiveerimine vähendab märkimisväärselt aktiivsete parameetrite arvu, muutes mudeli efektiivsemaks [5].
Deepseek-V3 asjatundlik marsruutimine
- Suurenenud ekspertide spetsialiseerumine: DeepSEEK-V3 tugineb MOE arhitektuurile, suurendades juhitud ekspertide arvu kihi kohta 60%, 160–256. See kasv suurendab mudeli teadmiste ja mälu võimekust [2].
- Jagatud eksperdid: Deepseek-V3 säilitab jagatud ekspertide kontseptsiooni, mis on alati aktiveeritud. Igal ettekandevõrgu (FFN) kihil on üks jagatud ekspert ja on kolm kihti, kus kõik eksperdid on aktiveeritud, parandades mudeli võimet jäädvustada üldteadmisi kontekstides [2] [4].
-Token-Experti afiinsus: märkide määramine ekspertidele põhineb manustamisruumis tokeni-eksperti afiinsusel. Deepseek-V3 seisab aga silmitsi marsruutimisega seotud väljakutsetega, kus saab järjekindlalt samade ekspertidele suunata, takistades teiste ekspertide väljaõpet [2].
- Agressiivne MOE strateegia: Deepseek-V3 võtab kasutusele agressiivsema MOE strateegia, kasutades treenimiseks FP8 täpsust, mis võimaldab tõhusamat arvutamist ja skaleerimist. See lähenemisviis võimaldab mudelil tõhusalt kasutada hõredat aktiveerimist, optimeerides parameetrite kasutamist järelduste ajal [2] [4].
Kokkuvõtlikult võib öelda, et kuigi mõlemad mudelid kasutavad tõhusaks marsruutimiseks ja hõredaks aktiveerimiseks MOE arhitektuure, suurendab Deepseek-V3 seda lähenemisviisi suurenenud ekspertide spetsialiseerumisega, agressiivsemate MOE strateegiate ja jagatud ekspertide konfiguratsioonide kohandustega. Deepseek-V2 keskendub ökonoomsele koolitusele ja tõhusatele järeldustele seadme piiratud marsruutimise ja koormuse tasakaalustamise lisakaotuse kaudu.
Tsitaadid:
[1] https://arxiv.org/pdf/2405.04434.pdf
[2] https://fireworks.ai/blog/deepseek-model-architecture
[3] https://www.chipstrat.com/p/deepseek-moe-and-v2
[4] https://dirox.com/post/deepseek-v3-the-oken-source-ai-revolution
]
[6] https://stratechery.com/2025/deepseek-faq/
[7] https://arxiv.org/html/2405.04434v3
[8] https://www.youtube.com/watch?v=4ucnsfbqmda