Procesul de selecție a experților Deepseek-V3 și arhitectura MOE

Cum asigură procesul de selecție a experților în Deepseek-V3 un amestec perfect de abilități

Procesul de selecție a experților Deepseek-V3 este conceput pentru a asigura o distribuție echilibrată și eficientă a sarcinilor între experții săi, folosind amestecul de arhitectură de experți (MOE). Acest proces este crucial pentru obținerea unui amestec perfect de abilități prin activarea dinamică a celor mai relevanți experți pentru fiecare jeton de intrare.

Amestecul de experți (MOE) Arhitectură

Deepseek-V3 folosește o arhitectură MOE, care implică împărțirea modelului în mai mulți „experți”, fiecare specializat în diferite sarcini sau domenii de cunoștințe. Modelul are 1 expert partajat și 256 de experți rutați, cu 8 experți rutați selectați ca activi pentru fiecare jeton de intrare pe baza relevanței lor [1]. Această abordare permite modelului să proceseze intrările mai eficient prin activarea doar a unei fracțiuni din parametrii totali 37 miliarde din 671 miliarde pentru fiecare sarcină [6] [7].

Procesul de selecție a experților

Selecția de experți în Deepseek-V3 se bazează pe un scor de afinitate, care este calculat ca produsul punct al încorporării jetonului de intrare și a unui centroid al unui expert specific. Acest scor determină cât de bine se potrivește unui expert cu nevoile jetonului de intrare [1]. Modelul folosește o strategie de selecție de top-K, unde sunt aleși experții de top-scor pentru procesare. Pentru a evita prăbușirea rutării, unde prea multe jetoane sunt trimise câțiva experți, Deepseek-V3 folosește o strategie de echilibrare a sarcinii fără pierderi auxiliare.

Echilibrarea încărcăturii fără pierderi auxiliare

Această strategie implică adăugarea unei prejudecăți la scorul de afinitate în timpul rutării. Biasul este ajustat dinamic pe baza utilizării fiecărui expert într -un lot. Dacă un expert este supraîncărcat, prejudecata sa este redusă pentru a descuraja misiuni suplimentare, în timp ce experții subutilizați au crescut prejudecata pentru a încuraja mai multă utilizare [1] [3]. Această abordare asigură că volumul de muncă este distribuit uniform între experți, fără a fi nevoie de funcții suplimentare de pierdere, care uneori pot răni performanța modelului [4].

Beneficiile procesului de selecție a experților

Procesul de selecție a experților în Deepseek-V3 oferă mai multe avantaje:
-Eficiență: prin activarea numai a experților relevanți, modelul reduce cheltuielile generale de calcul, ceea ce îl face mai rentabil și eficient din punct de vedere energetic [6] [9].
- Specializare: Fiecare expert se poate specializa în sarcini sau domenii de cunoștințe specifice, ceea ce duce la o prelucrare mai nuanțată și mai precisă a diverselor intrări [1] [9].
- Scalabilitate: Arhitectura MOE permite modele mai mari, fără costuri de calcul excesive, permițând dezvoltarea de sisteme AI mai complexe și capabile [4] [6].

În general, procesul de selecție a experților Deepseek-V3 asigură o combinație perfectă de abilități prin alocarea dinamică a sarcinilor experților specializați, optimizarea eficienței și îmbunătățirea performanței modelului.

Citări:
[1] https://gonzoml.substack.com/p/deepseek-v3-technical-adails
[2] https://www.herohunt.ai/blog/deepseeks-AI-model-revolutioning-global-recruitment
[3] https://www.youtube.com/watch?v=bv7ct-_spqy
[4] https://www.linkedin.com/pulse/what-main-benefit-mexure-experts-moe-models-qi-he-nkgbe
[5] https://www.reddit.com/r/localllama/comments/1hr56e3/notes_on_deepseek_v3_is_it_truly_better_than/
[6] https://alliedinsight.com/blog/deepseeks-technology-innovations-a-deep-dive-into-the-v3-model/
[7] https://huggingface.co/deepseek-AI/deepseek-v3
[8] https://mindflow.io/blog/deepseek-vs-openai-what-is-deepseek-what-does-eepseek-do
[9] https://tldv.io/blog/what-is-deepseek/
[10] https://www.bentoml.com/blog/the-complete-guide-to-deepseek-models-from-v3-to-r1-and-beyond