In DeepSeek-V3, la funzione sigmoide svolge un ruolo cruciale nel calcolo dei punteggi di affinità per il routing di esperti nella miscela di architettura di esperti (MOE). A differenza dei tradizionali modelli MOE che spesso utilizzano la funzione Softmax per normalizzare i punteggi di affinità, DeepSeek-V3 impiega la funzione sigmoideo. Questo cambiamento influisce sul modello in diversi modi:
1. Normalizzazione e routing: la funzione sigmoide viene utilizzata per calcolare i punteggi di affinità, che vengono quindi normalizzati tra tutti i punteggi di affinità selezionati per produrre i valori di gating. Questo approccio consente un meccanismo di routing più flessibile e sfumato rispetto a Softmax, che a volte può portare al collasso del routing in cui alcuni esperti sono eccessivamente favoriti [4] [7].
2. Evitare il collasso del routing: il crollo del routing si verifica quando la maggior parte dei token viene instradata a un piccolo sottoinsieme di esperti, portando a un uso inefficiente delle risorse computazionali. DeepSeek-V3 mitiga questo usando il gating sigmoide e introducendo termini di distorsione che si adattano dinamicamente durante l'allenamento. Questi termini di distorsione aiutano a bilanciare il carico tra gli esperti senza fare affidamento su perdite ausiliarie che possono influire negativamente sulle prestazioni del modello [4] [9].
3. Termini di distorsione e regolazione dinamica: il modello incorpora i termini di bias per ciascun esperto, che vengono aggiunti ai punteggi di affinità prima di selezionare gli esperti Top-K. Questi termini di bias sono regolati dinamicamente in base al carico di ciascun esperto. Se un esperto viene sovraccarico, il suo termine di pregiudizio diminuisce e se è sottovalutato, il termine di pregiudizio aumenta. Ciò garantisce una distribuzione equilibrata di token tra gli esperti senza la necessità di perdite aggiuntive [4] [8].
4. Perdita ausiliaria complementare a sequenza: sebbene DeepSeek-V3 eviti principalmente perdite ausiliarie, include una piccola perdita di equilibrio per la sequenza per prevenire casi estremi in cui una singola sequenza favorisca pesantemente un piccolo sottoinsieme di esperti. Questa perdita funge da salvaguardia senza influire significativamente sulle dinamiche di allenamento complessive [4].
5. Routing limitato dal nodo: per controllare i costi di comunicazione, DeepSeek-V3 impiega un routing limitato al nodo, in cui ogni token viene inviato al massimo dei nodi in base ai più alti punteggi di affinità. Questa strategia consente una sovrapposizione di comunicazione di calcolo quasi piena durante la formazione, migliorando l'efficienza [4].
Nel complesso, l'uso della funzione sigmoidea in DeepSeek-V3 consente un meccanismo di routing più flessibile ed efficiente, contribuendo alla capacità del modello di bilanciare l'utilizzo degli esperti senza sacrificare le prestazioni.
Citazioni:
[1] https://www.linkedin.com/posts/srijanie-dey_aibyhand-deeplearning-neuralnetworks-activity-7291477904792657920-rye_
[2] https://community.aws/content/2rjj1wztsfywvfsiibhwxeqmf1/four-unique-takeaways-from-deepseek-v3?lang=en
[3] https://docs.openvino.ai/2025/notebooks/yolov11-keypoint-dection-with-output.html
[4] https://machinelearningatascale.substack.com/p/deepseek-v3-model
[5] https://ai.gopubby.com/deepseek-v3-explained-3-uxiliare-loss-free-load-balancing-4beeb734ab1f
[6] https://neurips.cc/virtual/2024/poster/96407
[7] https://www.gdspr.com/bbs/board.php?bo_table=free&wr_id=2559&ssst=wr_hit&sod=desc&sop=and&page=147&device=pc
[8] https://www.mlsys.ai/papers/deepseek_v3.html
[9] https://gonzoml.substack.com/p/deepseek-v3-technical-details