Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon In che modo il gating sigmoide aiuta a prevenire il collasso del routing in DeepSeek-V3


In che modo il gating sigmoide aiuta a prevenire il collasso del routing in DeepSeek-V3


Il gating di sigmoide in Deepseek-V3 svolge un ruolo cruciale nella prevenzione del collasso del routing, un problema comune nei modelli di miscela di esperti (MOE) in cui alcuni esperti sono costantemente favoriti rispetto ad altri, portando a una formazione inefficiente e utilizzo delle risorse del modello. Ecco come il gating sigmoide aiuta:

tradizionale Softmax Gating vs. Sigmoid Gating

I modelli MOE tradizionali spesso usano Softmax Gating, che può portare a uno scenario "vincitore-toe-tutti". Le uscite Softmax sono normalizzate per assicurarsi che si sommino a 1, il che può causare probabilità estreme in cui un esperto viene scelto quasi esclusivamente, soprattutto se i suoi pesi iniziali sono leggermente migliori. Ciò può causare sottoutilizzati e sottovalutati altri esperti, portando al crollo del routing.

Al contrario, Sigmoid Gating assegna a ciascun esperto un punteggio tra 0 e 1 in modo indipendente, senza normalizzazione tra gli esperti. Ciò significa che più esperti possono avere punteggi alti contemporaneamente, consentendo una distribuzione più equilibrata di token tra gli esperti. Sigmoid Gating non impone una stretta competizione tra gli esperti, riducendo la probabilità di instradare il collasso assicurando che ogni esperto abbia una buona possibilità di contribuire [1] [4] [6].

Regolazione della distorsione dinamica

DeepSeek-V3 migliora ulteriormente il gating sigmoideo introducendo termini di pregiudizio dinamico per ciascun esperto. Questi pregiudizi vengono regolati durante l'allenamento in base al carico di ciascun esperto. Se un esperto viene sovraccarico, il suo pregiudizio viene ridotto per scoraggiare l'ulteriore routing ad esso, mentre gli esperti sottocusati hanno aumentato i loro pregiudizi per attirare più token. Questa regolazione dinamica aiuta a mantenere un carico equilibrato tra tutti gli esperti, impedendo a qualsiasi singolo esperto di dominare le decisioni di routing e prevenire così il collasso del routing [2] [4] [6].

Gerarchical Gating

DeepSeek-V3 impiega anche il gating gerarchico, che applica vincoli di scarsità a più livelli. Inizialmente, viene effettuata una selezione grossolana di esperti, seguita da filtrazioni più fini all'interno di gruppi selezionati. Questo approccio gerarchico garantisce che una serie diversificata di esperti venga attivata per ciascun token, riducendo ulteriormente il rischio di instradamento del collasso prevenendo la sovra-specializzazione e incoraggiando la generalizzazione in diversi settori [1] [6].

routing limitato dal nodo

Inoltre, DeepSeek-V3 utilizza un routing limitato dal nodo, che limita il numero di nodi con cui il token può comunicare. Questa strategia minimizza le spese generali di comunicazione incrociata, garantendo una formazione e un'inferenza efficienti mantenendo un utilizzo di esperti equilibrati [6].

In sintesi, il gating sigmoide in DeepSeek-V3 aiuta a prevenire il collasso del routing consentendo di attivare più esperti contemporaneamente senza forzare una rigida competizione tra loro. La regolazione dinamica di bias e il gating gerarchico assicurano ulteriormente che ogni esperto venga utilizzato in modo efficace, mantenendo un carico equilibrato e impedendo a qualsiasi esperto di dominare le decisioni di routing.

Citazioni:
[1] https://www.linkedin.com/posts/sathiyakeerthi_how-deepseek-v3-picks-perfect-experts-activity-7287631625310412800-ncyv
[2] https://martinfowler.com/articles/deepseek-papers.html
[3] https://epochai.substack.com/p/how-has-deepseek-improved-the-transformer
[4] https://machinelearningatascale.substack.com/p/deepseek-v3-model
[5] https://fireworks.ai/blog/deepseek-model-architecture
[6] https://aman.ai/primers/ai/deepseek-r1/
[7] https://gonzoml.substack.com/p/deepseek-v3-technical-details
[8] https://www.kisekilabs.com/blog-posts/why-deepseek-v3-matters-in-the-world-of-llms