Sigmoid aktiválási funkció a DeepSeek-V3 szakértői útválasztásban

Milyen szerepet játszik a Sigmoid aktiválási funkció a DeepSeek-V3 szakértői útválasztási folyamatában

A DeepSeek-V3-ban a Sigmoid aktiválási funkció döntő szerepet játszik a szakértői útválasztási folyamatban azáltal, hogy módosítja a tokeneket a szakértőkhöz. A SoftMAX funkciót alkalmazó korábbi verziókkal ellentétben a DeepSeek-V3 szigmoid függvényt alkalmaz a tokenek és a szakértők közötti affinitási pontszámok kiszámításához. Ez a változás elősegíti a szélsőséges szakértői kiválasztási valószínűségek megakadályozását, ami az útválasztáshoz vezethet olyan helyzetet, amikor a modell néhány szakértőt részesít ki mások felett, csökkentve a specializáció és a hatékonyság előnyeit.

Sigmoid aktiválási funkció a szakértői útválasztásban

A Sigmoid függvényt, amelyet $$ \ sigma (\ CDOT) $$ jelölnek, a token és a szakértő közötti affinitási pontszám kiszámításához használjuk. Pontosabban, a $$ s_ {i, t} $ $ pontszámot token $$ t $$ és a $$ i $$ szakértői pontszám:
$$ s_ {i, t} = \ sigma (u_t^t e_i) $$
Ahol a $$ U_T $$ a token beágyazása, és a $$ e_i $$ a szakértő centrid vektora $$ i $$. Ez a pontszám tükrözi, hogy a token mennyire igazodik a szakértő specialitásához.

Normalizálás és kiválasztás

A pontszámok kiszámítása után a DeepSeek-V3 normalizálja őket, és kiválasztja a felső-$$ K_R $$ szakértőket ezen normalizált pontszámok alapján. Ez a folyamat biztosítja, hogy minden tokent egy olyan szakértő részhalmazába vezetjenek, amely a leginkább releváns, elősegítve a hatékony és speciális feldolgozást.

torzítás feltételei a terhelés kiegyensúlyozásához

Az útválasztás összeomlásának megakadályozása és a szakértők közötti kiegyensúlyozott terheléseloszlás biztosítása érdekében a DeepSeek-V3 dinamikusan állítható torzítási kifejezéseket vezet be. Ezeket az elfogultsági kifejezéseket hozzáadják az affinitási pontszámokhoz, mielőtt kiválasztanák a legfontosabb szakértőket. Ha egy szakértő túlterhelt, akkor az torzítási kifejezés csökken, és ha alá van töltve, akkor az elfogultsági kifejezés növekszik. Ez a mechanizmus biztosítja, hogy a terhelés kiegyensúlyozott maradjon anélkül, hogy támaszkodna a kiegészítő veszteségfüggvényekre, ami negatívan befolyásolhatja a modell teljesítményét [1] [3].

A Sigmoid előnyei a softmax felett

A softmax helyett egy szigmoid funkció használata elősegíti a különböző szakértők kiválasztási valószínűségének elválasztását. A SoftMax -ban a valószínűségeket egyre normalizálják, ami szélsőséges valószínűséghez vezethet, ha egy szakértő jelentősen kedvelik. A Sigmoid viszont lehetővé teszi a rugalmasabb és független valószínűségi hozzárendeléseket, csökkentve az összeomlás útválasztásának valószínűségét és a kiegyensúlyozottabb szakértői felhasználás előmozdítását [4].

Összességében a Sigmoid aktiválási funkció a DeepSeek-V3-ban javítja a modell azon képességét, hogy hatékonyan irányítsa a tokeneket a releváns szakértőkhöz, miközben fenntartja a kiegyensúlyozott munkaterhelést, amely elengedhetetlen a nagy teljesítményű és számítási hatékonyság eléréséhez a nagyszabású szakemberek (MOE) építészetekben.

Idézetek:
[1] https://gonzoml.substack.com/p/deepseek-v3-technical-details
[2] https://aman.ai/primers/ai/deepseek-r1/
[3] https://machinelearningatcale.substack.com/p/deepseek-v3-model
[4] https://mlfrontiers.substack.com/p/understanding-deepseek-v3
[5] https://docs.nvidia.com/nemo-framework/user-guide/latest/llms/deepseek_v3.html
[6] https://planetbanatt.net/articles/deepseek.html
[7] https://arxiv.org/pdf/2412.19437.pdf
[8] https://builtin.com/machine-learning/sigmoid-acivation-function