Per capire come il gating sigmoide interagisce con l'architettura di attenzione latente a più testa (MLA) in DeepSeek-V3, abbattiamo sia i componenti che i loro ruoli all'interno del modello.
Attenzione latente multi-testa (MLA)
** MLA è un componente chiave di DeepSeek-V3, progettato per ottimizzare il meccanismo di attenzione nei modelli a base di trasformatori. A differenza della tradizionale attenzione a più testa, MLA utilizza una compressione giuntura di basso rango per chiavi e valori di attenzione. Questa compressione riduce la dimensionalità dei vettori di query (Q), chiave (k) e valore (v) prima di entrare nel meccanismo di attenzione. Ad esempio, se l'input ha una forma di (lunghezza della sequenza ã 2000), MLA potrebbe ridurre i vettori Q, K e V a una forma di (lunghezza della sequenza ã 100). Questa riduzione minimizza significativamente la cache del valore chiave (KV) durante l'inferenza, portando a tempi di elaborazione più rapidi senza sacrificare le prestazioni [5] [9].
Sigmoid Gating in DeepSeek-V3
Nel contesto di DeepSeek-V3, il gating sigmoide viene utilizzato in combinazione con il framework di miscela di esperti (MOE). Il framework MoE divide la grande rete neurale in sub-network specializzati chiamati "esperti". Per ogni input, viene attivato solo un sottoinsieme di questi esperti. Il gating sigmoide viene applicato al meccanismo di routing che decide quali esperti attivare.
interazione con MLA
Mentre MLA si concentra principalmente sull'ottimizzazione del processo di attenzione, Sigmoid Gating svolge un ruolo nel framework MOE, che è una componente separata ma complementare di DeepSeek-V3. Il framework MoE utilizza il gating sigmoide per gestire come i token vengono instradati a diversi esperti. A differenza del tradizionale gating di Softmax, che può portare a casi estremi in cui alcuni esperti sono favoriti rispetto ad altri, il gating sigmoide aiuta a mantenere una distribuzione più equilibrata dei token tra gli esperti. Questo equilibrio è cruciale per prevenire il crollo del routing, in cui il modello potrebbe tornare a comportarsi come un modello denso, perdendo i benefici di efficienza dell'architettura MOE [5].
Regolazione della distorsione dinamica
DeepSeek-V3 introduce regolazioni dinamiche per garantire il bilanciamento del carico tra gli esperti. I termini di pregiudizio vengono aggiunti ai punteggi di affinità esperti prima di prendere decisioni di routing. Questi pregiudizi vengono regolati dinamicamente durante l'allenamento: se un esperto è sovraccarico, il suo pregiudizio viene ridotto e, se è sottovalutato, il suo pregiudizio è aumentato. Questo meccanismo garantisce che il carico rimanga bilanciato senza fare affidamento su funzioni di perdita ausiliaria, che possono influire negativamente sulle prestazioni del modello [5].
In sintesi, mentre MLA ottimizza il meccanismo di attenzione per un'inferenza più rapida, il gating sigmoide nel framework MOE aiuta a gestire il routing dei token agli esperti, garantendo un utilizzo efficiente ed equilibrato delle risorse computazionali. Questa combinazione migliora le prestazioni complessive e l'efficienza di DeepSeek-V3.
Citazioni:
[1] https://fireworks.ai/blog/deepseek-model-architecture
[2] https://huggingface.co/deepseek-ai/deepseek-v3
[3] https://arxiv.org/abs/1609.07160
[4] https://618media.com/en/blog/technical-architecture-of-deepseek-v3-explained/
[5] https://machinelearningatascale.substack.com/p/deepseek-v3-model
[6] https://www.reddit.com/r/localllama/comments/1i4em80/interesting_article_on_how_deepseek_has_improved/
[7] https://en.wikipedia.org/wiki/transformer_(deep_learning_architecture)
[8] https://ai.gopubby.com/deepseek-v3-explained-2-deepseekmoe-106cffcc56c1
[9] https://pub.towardsai.net/deepseek-r1-model-architecture-853fefac7050