DeepSeek-V3: Zvyšování odborného směrování se sigmoidní funkcí ve směsi architektury odborníků

Jak funkce sigmoidu ovlivňuje výpočet skóre afinity v DeepSeek-V3

V DeepSeek-V3 hraje sigmoidní funkce klíčovou roli při výpočtu skóre afinity pro odborné směrování ve směsi architektury odborníků (MOE). Na rozdíl od tradičních modelů MOE, které často používají funkci SoftMax k normalizaci skóre afinity, používá DeepSeek-V3 sigmoidní funkci. Tato změna ovlivňuje model několika způsoby:

1. Normalizace a směrování: Sigmoidní funkce se používá pro výpočet skóre afinity, které jsou pak normalizovány mezi všemi vybranými skóre přitom a za vzniku hodnot brány. Tento přístup umožňuje flexibilnější a nuanční směrovací mechanismus ve srovnání s SoftMax, který může někdy vést ke kolapsu směrování, kde jsou někteří odborníci příliš oblíbeni [4] [7].

2. Vyhýbání se kolapsu směrování: Kolování směrování dochází, když je většina tokenů směrována na malou podskupinu odborníků, což vede k neefektivnímu využívání výpočetních zdrojů. DeepSeek-V3 to zmírňuje pomocí sigmoidního hradlování a zavedením termínů zkreslení, které se dynamicky přizpůsobují během tréninku. Tyto podmínky zkreslení pomáhají vyrovnat zátěž u odborníků, aniž by se spoléhaly na pomocné ztráty, které mohou negativně ovlivnit výkon modelu [4] [9].

3. zkreslení podmínky a dynamické přizpůsobení: Model zahrnuje podmínky zkreslení pro každého odborníka, které se před výběrem odborníků na Top-K přidají do skóre afinity. Tyto termíny zkreslení jsou dynamicky upraveny na základě zatížení každého odborníka. Pokud je odborník přetížen, jeho zkreslení se snižuje a pokud je podáván, zvýší se termín zkreslení. To zajišťuje vyvážené rozdělení žetonů napříč odborníky bez nutnosti dalších ztrát [4] [8].

4. Doplňková sekvence-moudrá pomocná ztráta: Ačkoli DeepSeek-V3 primárně zabraňuje pomocným ztrátám, zahrnuje malou ztrátu sekvenční rovnováhy, aby se zabránilo extrémním případům, kdy jediná sekvence silně upřednostňuje malou podskupinu odborníků. Tato ztráta působí jako ochrana, aniž by významně ovlivnila celkovou dynamiku tréninku [4].

5. Směrování s omezeným uzlem: Pro kontrolu nákladů na komunikaci používá DeepSeek-V3 směrování s omezeným uzlem, kde je každý token odesílán do maximálně M uzlů na základě nejvyššího afinitního skóre. Tato strategie umožňuje překrytí téměř plné výpočetní komunikace během tréninku a zvyšuje účinnost [4].

Celkově použití funkce Sigmoid v Deepseek-V3 umožňuje flexibilnější a efektivnější směrovací mechanismus, což přispívá k schopnosti modelu vyrovnat využití odborníků bez obětování výkonu.

Citace:
[1] https://www.linkedin.com/posts/srijanie-dey_aibyhand-deeplearning-neuranetworks-activity-7291477904792657920-rye_
[2] https://community.aws/content/2rjj1wkztsfywvfsiibhwxeqmf1/four-unique-takeaways-from-deepseek-v3?lang=en
[3] https://docs.openvino.ai/2025/notebooks/yolov11-keypoint-dection-with-utput.html
[4] https://machinelearningatscale.substack.com/p/deepseek-v3-model
[5] https://ai.gopubby.com/deepseek-v3-explaided-3-auxiliary-loss-free-load-balancing-4BeeB734ab1f
[6] https://neurips.cc/virtual/2024/poster/96407
[7] https://www.gdsprs.com/bbs/board.php?bo_table=free&wr_id=2559&sst=wr_hit&sod=desc&sop=and&page=147&device=pc
[8] https://www.mlsys.ai/papers/deepseek_v3.html
[9] https://gonzoml.substack.com/p/deepseek-v3-technical-details