Funkcia aktivácie sigmoidov v expertovom smerovaní expertov Deepseek-V3

Akú úlohu zohráva funkcia aktivácie sigmoidov v procese expertného smerovania Deepseek-V3

V DeepSEek-V3 hrá sigmoidná aktivačná funkcia v procese smerovania odborného smerovania rozhodujúcu úlohu zmenou, ako sú tokeny priradené odborníkom. Na rozdiel od predchádzajúcich verzií, ktoré používali funkciu softmax, Deepseek-V3 používa sigmoidnú funkciu na výpočet skóre afinity medzi tokenmi a odborníkmi. Táto zmena pomáha predchádzať extrémnym pravdepodobnostiam výberu expertov, čo môže viesť k kolapsu smerovania, keď model uprednostňuje niekoľko odborníkov pred ostatnými, čím znižuje výhody špecializácie a efektívnosti.

Sigmoid Activation Funkcia pri odbornom smerovaní

Sigmoidná funkcia označená ako $$ \ Sigma (\ cdot) $$ sa používa na výpočet skóre afinity medzi tokenom a odborníkom. Konkrétne, skóre $$ S_ {i, t} $$ pre token $$ t $$ a expert $$ i $$ sa počíta ako:
$$ S_ {i, t} = \ Sigma (u_t^t e_i) $$
kde $$ u_t $$ je vkladanie tokenu a $$ e_i $$ je vektor Centroid Expert $$ I $$. Toto skóre odráža, ako dobre sa token v súlade so špecializáciou odborníka.

Normalizácia a výber

Po výpočte týchto skóre ich Deepseek-V3 normalizuje a vyberie odborníkov na top-$$ K_R $$ na základe týchto normalizovaných skóre. Tento proces zaisťuje, že každý token je smerovaný do podskupiny odborníkov, ktorí sú preň najdôležitejšie, čo propaguje efektívne a špecializované spracovanie.

Bias Podmienky na vyváženie záťaže

Aby sa zabránilo zrúteniu smerovania a zabezpečenie vyváženého distribúcie zaťaženia medzi odborníkmi, DeepSEEK-V3 zavádza dynamicky nastaviteľné podmienky zaujatosti. Tieto podmienky zaujatosti sa pridajú do skóre afinity pred výberom najlepších odborníkov. Ak je expert preťažený, jeho zaujatosť sa zníži a ak je nedostatočne zaťažená, zvýši sa termín zaujatosti. Tento mechanizmus zaisťuje, že záťaž zostane vyvážená bez toho, aby sa spoliehala na funkcie pomocných strát, čo môže negatívne ovplyvniť výkon modelu [1] [3].

Výhody sigmoidu nad softmaxom

Použitie sigmoidnej funkcie namiesto softMax pomáha oddeliť pravdepodobnosť výberu rôznych odborníkov. V softmax sa pravdepodobnosť normalizuje na súčet na jednu, čo môže viesť k extrémnym pravdepodobnostiam, keď je jeden odborník výrazne uprednostňovaný. Sigmoid, na druhej strane, umožňuje flexibilnejšie a nezávislejšie priradenia pravdepodobnosti, čím sa znižuje pravdepodobnosť smerovania kolapsu a propagácie vyváženejšieho využívania odborníkov [4].

Celkovo aktivačná funkcia sigmoidnej aktivácie v DeepSEEK-V3 zvyšuje schopnosť modelu efektívne smerovať tokeny k relevantným odborníkom pri zachovaní vyváženého pracovného zaťaženia, čo je rozhodujúce pre dosiahnutie vysoko výkonnej a výpočtovej účinnosti vo veľkých architektúrach zmesí expertov (MOE).

Citácie:
[1] https://gonzoml.substack.com/p/deepseek-v3-technical-details
[2] https://aman.ai/primers/ai/deepseek-r1/
[3] https://machinearningatscale.substack.com/p/deepseek-v3-model
[4] https://mlfrontiers.substack.com/p/understanding-deepseek-v3
[5] https://docs.nvidia.com/nemo-framework/user-guide/latest/llms/deepseek_v3.html
[6] https://planetbanatt.net/articles/deepseek.html
[7] https://arxiv.org/pdf/2412.19437.pdf
[8] https://builtin.com/machine-learning/sigmoid-activation-function