Funkce sigmoidní aktivace v odborném směrování DeepSeek-V3

Jakou roli hraje funkce sigmoidní aktivace v procesu odborného směrování DeepSeek-V3

V Deepseek-V3 hraje funkce sigmoidní aktivace klíčovou roli v procesu odborného směrování úpravou toho, jak jsou tokeny přiřazeny odborníkům. Na rozdíl od dřívějších verzí, které používaly funkci SoftMax, používá DeepSeek-V3 sigmoidní funkci k výpočtu skóre afinity mezi žetony a odborníky. Tato změna pomáhá předcházet pravděpodobnosti výběru extrémního experti, což může vést ke směrování kolapsu, kdy model upřednostňuje několik odborníků nad ostatními a snižuje výhody specializace a efektivity.

Funkce sigmoidní aktivace při směrování odborníků

Funkce sigmoid, označená jako $$ \ Sigma (\ CDOT) $$, se používá k výpočtu skóre afinity mezi tokenem a odborníkem. Konkrétně, skóre $$ s_ {i, t} $$ pro token $$ t $$ a expert $$ i $$ je vypočteno jako:
$$ S_ {i, t} = \ Sigma (u_t^t e_i) $$
kde $$ u_t $$ je vkládání tokenu a $$ e_i $$ je centroid vektor expert $$ i $$. Toto skóre odráží, jak dobře se žeton vyrovnává se specializací odborníka.

Normalizace a výběr

Po výpočtu těchto skóre je DeepSeek-V3 normalizuje a vybere top-$$ K_R $$ odborníky na základě těchto normalizovaných skóre. Tento proces zajišťuje, že každý token je směrován na podskupinu odborníků, kteří jsou pro něj nejrelevantnější, a podporuje efektivní a specializované zpracování.

Podmínky zaujatosti pro vyrovnávání zátěže

Aby se zabránilo kolapsu směrování a zajistilo vyvážené rozdělení zátěže mezi odborníky, DeepSeek-V3 zavádí dynamicky nastavitelné podmínky zkreslení. Před výběrem nejlepších odborníků jsou tyto podmínky zkreslení přidány do skóre afinity. Pokud je odborník přetížen, jeho termín zkreslení se sníží a pokud je podán, zvýší se termín zkreslení. Tento mechanismus zajišťuje, že zátěž zůstává vyvážená, aniž by se spoléhala na funkce pomocných ztrát, což může negativně ovlivnit výkon modelu [1] [3].

Výhody sigmoidu nad softmax

Použití sigmoidní funkce místo SoftMax pomáhá rozdělit pravděpodobnost výběru různých odborníků. V SoftMaxu jsou pravděpodobnosti normalizovány tak, aby shrnuly na jednoho, což může vést k extrémní pravděpodobnosti, když je jeden odborník výrazně upřednostňován. Sigmoid naproti tomu umožňuje flexibilnější a nezávislé přiřazení pravděpodobnosti, což snižuje pravděpodobnost kolapsu směrování a podpora vyváženějšího využití odborníků [4].

Celkově sigmoidní aktivační funkce v DeepSeek-V3 zvyšuje schopnost modelu efektivně směrovat tokeny na relevantní odborníky a zároveň udržovat vyvážené pracovní zátěž, což je zásadní pro dosažení vysokého výkonu a výpočetní účinnosti ve velkém měřítku architektur směsi expertů (MOE).

Citace:
[1] https://gonzoml.substack.com/p/deepseek-v3-technical-details
[2] https://aman.ai/primers/ai/deepseek-r1/
[3] https://machinelearningatscale.substack.com/p/deepseek-v3-model
[4] https://mlfrontiers.substack.com/p/understanding-deepseek-v3
[5] https://docs.nvidia.com/nemo-framework/user-guide/latest/llms/deepseek_v3.html
[6] https://planetbanatt.net/articles/deepseek.html
[7] https://arxiv.org/pdf/2412.19437.pdf
[8] https://builtin.com/machine-learning/sigmoid-activation-function