In DeepSeek-V3, il punteggio di affinità svolge un ruolo cruciale nel processo di selezione degli esperti all'interno della sua architettura di mixture of-Experts (MOE). Questa architettura è progettata per gestire in modo efficiente le attività di modellazione del linguaggio su larga scala attivando dinamicamente un sottoinsieme di esperti in base ai token di input.
calcolo del punteggio di affinità
Il punteggio di affinità viene calcolato come prodotto DOT dell'incorporamento del token di input e del centroide di un esperto specifico. Il centroide può essere pensato come un vettore rappresentativo per ciascun esperto, che potrebbe essere derivato dalle attivazioni medie o dagli input che gli esperti elaborano. Questo prodotto DOT misura quanto sia strettamente allineato il token con l'esperienza di ciascun esperto disponibile.
processo di selezione degli esperti
1. Top-K Routing: Per ogni token di input, DeepSeek-V3 seleziona i primi 8 esperti con i punteggi di affinità più alti. Questo processo è noto come routing Top-K, in cui K è fissato a 8 in questo caso [1] [7].
2. Regolazione della distorsione: per prevenire il crollo del routing, in cui troppi token vengono instradati agli stessi esperti, DeepSeek-V3 introduce una regolazione di bias dinamica. Ogni esperto ha un termine di pregiudizio $$ b_i $$ che viene aggiunto al suo punteggio di affinità durante il routing. Se un esperto viene sovraccarico, il suo pregiudizio viene ridotto e se è sottoutilizzato, il suo pregiudizio è aumentato. Questa regolazione aiuta a mantenere un carico di lavoro equilibrato tra tutti gli esperti senza utilizzare perdite ausiliarie esplicite [1] [3].
3. Meccanismo di gating: il meccanismo di gating calcola un punteggio per ciascun token e seleziona gli esperti routing più rilevanti in base a questi punteggi. Ciò garantisce che il modello alloca in modo efficiente le risorse computazionali solo attivando gli esperti necessari per ciascun token [3].
Vantaggi del punteggio di affinità
- Efficienza: selezionando gli esperti basati sui punteggi di affinità, DeepSeek-V3 riduce i costi computazionali attivando solo una frazione dei parametri totali del modello per ciascun token. Ciò si traduce in processi di inferenza e formazione più efficienti [4] [8].
- Specializzazione: il punteggio di affinità consente una migliore specializzazione tra gli esperti. Ogni esperto può concentrarsi su modelli o compiti specifici, migliorando il potere rappresentativo generale del modello e la capacità di gestire diversi input [1] [2].
- Stabilità: l'adeguamento della distorsione dinamica assicura che nessun esperto sia sovraccarico, mantenendo la stabilità durante la formazione e l'inferenza. Ciò impedisce al modello di far cadere i token a causa del sovraccarico, che era un problema nelle versioni precedenti [2] [3].
In sintesi, il punteggio di affinità in DeepSeek-V3 è cruciale per selezionare dinamicamente gli esperti più rilevanti per ciascun token di input, garantendo un'elaborazione efficiente e specializzata mantenendo la stabilità del modello.
Citazioni:
[1] https://gonzoml.substack.com/p/deepseek-v3-technical-details
[2] https://martinfowler.com/articles/deepseek-papers.html
[3] https://www.youtube.com/watch?v=bv7ct-_spqy
[4] https://www.linkedin.com/pulse/what-main-benefit-mixture-experts-models-qi-he-nkgbe
[5] https://www.linkedin.com/pulse/unpacking-deepseek-v3-technical-innovations-question-cost-statton-juplc
[6] https://latenode.com/blog/deepseek-v3-and-deepseek-r1-integrations-are-now-on-latenode
[7] https://www.linkedin.com/pulse/dynamicamente-selecting-number-expert-moe-models-like-deepseek-rosi%c4%87-ckytf
[8] https://arxiv.org/html/2412.19437v1
[9] https://www.bentoml.com/blog/the-complete-guide-to-deepseek-models-from-v3-to-r1-and-beyond