Affiniteitsscore in Deepseek-V3: Selectie van experts in mix-of-experts architectuur

Kun je de rol van de affiniteitsscore uitleggen in het selectieproces van deskundigen van Deepseek-V3

In Deepseek-V3 speelt de affiniteitsscore een cruciale rol in het selectieproces van deskundigen in de architectuur van de mix van experts (MOE). Deze architectuur is ontworpen om grootschalige taalmodelleringstaken efficiënt af te handelen door een subset van experts op basis van de invoertokens dynamisch te activeren.

Affinity Score berekening

De affiniteitsscore wordt berekend als het puntproduct van de inbedding van het invoertoken en het centroid van een specifieke expert. Het zwaartepunt kan worden beschouwd als een representatieve vector voor elke expert, die kan worden afgeleid van de gemiddelde activeringen of input die de expert verwerkt. Dit puntproduct meet hoe nauw uit elkaar het token is afgestemd op de expertise van elke beschikbare expert.

Selectieproces van experts

1. Top-K routing: voor elk invoertoken selecteert DeepSeek-V3 de top 8-experts met de hoogste affiniteitsscores. Dit proces staat bekend als top-K-routering, waarbij K in dit geval op 8 wordt vastgesteld [1] [7].

2. Bias-aanpassing: om het instorten van de routing te voorkomen, waarbij te veel tokens naar dezelfde experts worden geleid, introduceert Deepseek-V3 een dynamische bias-aanpassing. Elke expert heeft een bias -term $$ b_i $$ die wordt toegevoegd aan zijn affiniteitsscore tijdens het routeren. Als een expert wordt overbelast, wordt de vooringenomenheid verminderd en als deze wordt onderbenut, wordt de vooringenomenheid verhoogd. Deze aanpassing helpt bij het handhaven van een evenwichtige werklast bij alle experts zonder expliciete hulpverliezen te gebruiken [1] [3].

3. Gatingsmechanisme: het poortmechanisme berekent een score voor elk token en selecteert de meest relevante gerouteerde experts op basis van deze scores. Dit zorgt ervoor dat het model computationele bronnen efficiënt toewijst door alleen de benodigde experts voor elk token te activeren [3].

Voordelen van de affiniteitsscore

- Efficiëntie: door experts te selecteren op basis van affiniteitsscores, verlaagt Deepseek-V3 de rekenkosten door slechts een fractie van de totale parameters van het model voor elk token te activeren. Dit resulteert in efficiëntere inferentie- en trainingsprocessen [4] [8].

- Specialisatie: de affiniteitsscore zorgt voor een betere specialisatie tussen experts. Elke expert kan zich concentreren op specifieke patronen of taken, waardoor de algemene representatieve kracht en het vermogen van het model om verschillende inputs aan te pakken te verbeteren [1] [2].

- Stabiliteit: de aanpassing van de dynamische bias zorgt ervoor dat geen enkele expert overbelast is, waardoor stabiliteit wordt gehandhaafd tijdens zowel training als gevolgtrekking. Dit voorkomt dat het model tokens laat vallen vanwege overbelasting, wat een probleem was in eerdere versies [2] [3].

Samenvattend is de affiniteitsscore in Deepseek-V3 cruciaal voor het dynamisch selecteren van de meest relevante experts voor elk input token, waardoor efficiënte en gespecialiseerde verwerking wordt gewaarborgd met behoud van de stabiliteit van het model.

Citaten:
[1] https://gonzoml.substack.com/p/deepseek-v3-technical-details
[2] https://martinfowler.com/articles/deepseek-papers.html
[3] https://www.youtube.com/watch?v=bv7ct-_spqy
[4] https://www.linkedin.com/pulse/what-main-benefit--mixture-experts-moDels-qi-qi-qi-qi-nkgbe
[5] https://www.linkedin.com/pulse/unpacking-deepseek-v3-technical-innovations-question-cost-statton-juplc
[6] https://latenode.com/blog/deepseek-v3-and-deepseek-r1-integrations-are-now-on-latenode
[7] https://www.linkedin.com/pulse/dynamically-selecting-number-expert-moE-Models-Like-Deepseek-Rosi%C4%87-Ckytf
[8] https://arxiv.org/html/2412.19437v1
[9] https://www.bentoml.com/blog/the-complete-guide-to-deepseek-models-from-v3-to-r1-en-beyond