Deepseek-V3-s mängib afiinsuse skoor oma ekspertide segu (MOE) arhitektuuris ekspertide valikuprotsessis üliolulist rolli. See arhitektuur on loodud suuremahuliste keele modelleerimise ülesannete tõhusaks käsitsemiseks, aktiveerides sisendmärkide põhjal ekspertide alamhulga dünaamiliselt.
Afiinsuse skoori arvutamine
Afiinsuse skoor arvutatakse sisendmärgi manustamise ja konkreetse eksperdi keskpunkti punktproduktina. Tsentroidi võib pidada iga eksperdi esinduslikuks vektoriks, mis võib tuleneda keskmistest aktiveerimistest või sisenditest, mida ekspertprotsessid. See DOT -toode mõõdab, kui tihedalt joondatud on iga saadaoleva eksperdi teadmistega.
Ekspertide valikuprotsess
1. Ülemine K-marsruutimine: iga sisendmärgi jaoks valib DeepSEEK-V3 8 parimat eksperti, kellel on kõrgeima afiinsusskoori. Seda protsessi tuntakse kui T-K marsruutimist, kus K on fikseeritud sel juhul 8 [1] [7].
2. eelarvamuste kohandamine: marsruutimise kokkuvarisemise vältimiseks, kus samadele ekspertidele suunatakse liiga palju žetoone, tutvustab Deepseek-V3 dünaamilist eelarvamuse kohandamist. Igal eksperdil on eelarvamuste termin $$ B_I $$, mis lisatakse selle afiinsuse skoorile marsruutimise ajal. Kui ekspert on ülekoormatud, väheneb selle kallutatus ja kui see on alakasutatud, suureneb selle kallutatus. See kohandamine aitab säilitada tasakaalustatud töökoormust kõigis ekspertides ilma selgesõnalisi lisakaotusi kasutamata [1] [3].
3. väravamehhanism: väravamehhanism arvutab iga sümboli tulemuse ja valib nende hinnete põhjal kõige asjakohasemad eksperdid. See tagab, et mudel eraldab arvutusressursse tõhusalt, aktiveerides ainult vajalikud eksperdid iga märgi jaoks [3].
Afiinsuse tulemuse eelised
- Tõhusus: valides afiinsushinnete põhjal eksperdid, vähendab DeepSEEK-V3 arvutuskulusid, aktiveerides ainult murdosa mudeli koguparameetritest iga sümboli jaoks. Selle tulemuseks on tõhusamad järeldused ja koolitusprotsessid [4] [8].
- Spetsialiseerumine: afiinsusskoor võimaldab ekspertide seas paremat spetsialiseerumist. Iga ekspert saab keskenduda konkreetsetele mustritele või ülesannetele, suurendades mudeli üldist esinduslikku jõudu ja võimet käsitseda erinevaid sisendeid [1] [2].
- Stabiilsus: dünaamiline eelarvamuste kohandamine tagab, et ükski ekspert pole ülekoormatud, säilitades stabiilsuse nii koolituse kui ka järeldamise ajal. See takistab mudeli ülekoormamise tõttu märkide langemist, mis oli varasemate versioonide probleem [2] [3].
Kokkuvõtlikult võib öelda, et afiinsuse skoor DeepSEEK-V3-s on ülioluline iga sisendmärgi jaoks kõige olulisemate ekspertide dünaamiliseks valimiseks, tagades tõhusa ja spetsiaalse töötlemise, säilitades samal ajal mudeli stabiilsuse.
Tsitaadid:
[1] https://gonzoml.substack.com/p/deepseek-v3-technical-details
[2] https://martinfowler.com/articles/deepseek-papers.html
[3] https://www.youtube.com/watch?v=bv7ct-_spqy
]
]
]
]
[8] https://arxiv.org/html/2412.19437v1
]