În Deepseek-V3, scorul de afinitate joacă un rol crucial în procesul de selecție a experților în arhitectura sa de amestec de experți (MOE). Această arhitectură este concepută pentru a gestiona eficient sarcinile de modelare a limbajului pe scară largă, prin activarea dinamică a unui subset de experți bazate pe jetoanele de intrare.
Calculul scorului de afinitate
Scorul de afinitate este calculat ca produsul punct al încorporării tokenului de intrare și a unui centroid al unui expert specific. Centroidul poate fi gândit ca un vector reprezentativ pentru fiecare expert, care ar putea fi derivat din activările medii sau contribuțiile pe care le procesează expertul. Acest produs DOT măsoară cât de strâns este jetonul cu expertiza fiecărui expert disponibil.
Procesul de selecție a experților
1. Routing Top-K: Pentru fiecare jeton de intrare, DeepSeek-V3 selectează primii 8 experți cu cele mai mari scoruri de afinitate. Acest proces este cunoscut sub numele de top-k ruting, unde k este fixat la 8 în acest caz [1] [7].
2. Reglarea prejudecății: pentru a preveni prăbușirea rutării, unde prea multe jetoane sunt dirijate către aceiași experți, Deepseek-V3 introduce o ajustare dinamică a prejudecății. Fiecare expert are un termen de prejudecăți $$ b_i $$ care se adaugă la scorul său de afinitate în timpul rutelor. Dacă un expert este supraîncărcat, prejudecata sa este scăzută și dacă este subutilizată, prejudecata sa este crescută. Această ajustare ajută la menținerea unui volum de muncă echilibrat la toți experții, fără a utiliza pierderi auxiliare explicite [1] [3].
3. Mecanismul de închidere: Mecanismul de închidere calculează un scor pentru fiecare simbol și selectează cei mai relevanți experți rutați pe baza acestor scoruri. Acest lucru asigură că modelul alocă eficient resurse de calcul prin activarea doar experților necesari pentru fiecare simbol [3].
Beneficiile scorului de afinitate
- Eficiență: selectând experți pe baza scorurilor de afinitate, Deepseek-V3 reduce costurile de calcul prin activarea doar a unei fracții din parametrii totali ai modelului pentru fiecare simbol. Acest lucru duce la procese de inferență și instruire mai eficiente [4] [8].
- Specializare: Scorul de afinitate permite o mai bună specializare în rândul experților. Fiecare expert se poate concentra pe modele sau sarcini specifice, îmbunătățind puterea de reprezentare generală a modelului și capacitatea de a gestiona diverse intrări [1] [2].
- Stabilitate: ajustarea dinamică a prejudecății asigură că niciun expert nu este supraîncărcat, menținând stabilitatea atât în timpul antrenamentului, cât și la inferență. Acest lucru împiedică modelul să renunțe la jetoane din cauza supraîncărcării, ceea ce a fost o problemă în versiunile anterioare [2] [3].
În rezumat, scorul de afinitate în Deepseek-V3 este crucial pentru selectarea dinamică a celor mai relevanți experți pentru fiecare jeton de intrare, asigurând o prelucrare eficientă și specializată, menținând în același timp stabilitatea modelului.
Citări:
[1] https://gonzoml.substack.com/p/deepseek-v3-technical-adails
[2] https://martinfowler.com/articles/deepseek-papers.html
[3] https://www.youtube.com/watch?v=bv7ct-_spqy
[4] https://www.linkedin.com/pulse/what-main-benefit-mexure-experts-moe-models-qi-he-nkgbe
]
[6] https://latenode.com/blog/deepseek-v3-and-deepseek-r1-integrations-are-now-on-latenode
[7] https://www.linkedin.com/pulse/dynamical-selecting-number-expert-moe-models-a-eepseek-rosi%c4%87-ckytf
[8] https://arxiv.org/html/2412.19437v1
[9] https://www.bentoml.com/blog/the-complete-guide-to-deepseek-models-from-v3-to-r1-and-beyond