Sigmoid gating in Deepseek-V3 speelt een cruciale rol bij het voorkomen van instorting van routing, een veel voorkomend probleem in mengsel-van-experts (MOE) -modellen waar een paar experts consequent de voorkeur geven boven andere, wat leidt tot inefficiënte training en gebruik van modelbronnen. Dit is hoe sigmoid pating helpt:
Traditionele softmax poort versus sigmoid pating
Traditionele MOE-modellen gebruiken vaak softmax poorten, wat kan leiden tot een scenario "winnaar-alles-all". Softmax -outputs worden genormaliseerd om ervoor te zorgen dat ze tot 1 samenvatten, wat kan leiden tot extreme waarschijnlijkheden waarbij een expert bijna uitsluitend wordt gekozen, vooral als de oorspronkelijke gewichten iets beter zijn. Dit kan ertoe leiden dat andere experts worden onderbenut en ondergewaardeerd, wat leidt tot instorting van de routing.
Sigmoid gating kent elke expert een score tussen 0 en 1 onafhankelijk toe, zonder normalisatie tussen experts. Dit betekent dat meerdere experts tegelijkertijd hoge scores kunnen hebben, waardoor een meer evenwichtige verdeling van tokens over experts mogelijk is. Sigmoid gating handhaaft geen strikte concurrentie tussen experts, waardoor de kans op instorting wordt verminderd door ervoor te zorgen dat elke expert een eerlijke kans krijgt om bij te dragen [1] [4] [6].
Dynamische biasaanpassing
Deepseek-V3 verbetert de sigmoïde poort verder door dynamische biastermen voor elke expert te introduceren. Deze vooroordelen worden aangepast tijdens de training op basis van de belasting van elke expert. Als een expert overbelast wordt, wordt de vooringenomenheid verminderd om verdere routing ernaar te ontmoedigen, terwijl onderbelaste experts hun vooroordelen hebben verhoogd om meer tokens aan te trekken. Deze dynamische aanpassing helpt bij het handhaven van een evenwichtige belasting bij alle experts, waardoor een enkele expert de routeringsbeslissingen kan domineren en dus het ineenstorting van de routing [2] [4] [6] wordt voorkomen.
Hiërarchische poort
Deepseek-V3 maakt ook gebruik van hiërarchische poorten, die op meerdere niveaus spaarzaamheidsbeperkingen toepast. Aanvankelijk wordt een grove selectie van experts gemaakt, gevolgd door fijnere filtering binnen geselecteerde groepen. Deze hiërarchische benadering zorgt ervoor dat een diverse reeks experts voor elk token wordt geactiveerd, waardoor het risico op instorting van de routing verder wordt verminderd door over-specialisatie te voorkomen en generalisatie over verschillende domeinen aan te moedigen [1] [6].
Node-beperkte routering
Bovendien maakt Deepseek-V3 gebruik van knooppuntbeperkte routing, die het aantal knooppunten beperkt waarmee elke token kan communiceren. Deze strategie minimaliseert cros-knooppuntcommunicatie overhead en zorgt voor efficiënte training en inferentie met behoud van een evenwichtig gebruik van experts [6].
Samenvattend helpt sigmoid gating in Deepseek-V3 te voorkomen dat het instorten van de routing door meerdere experts tegelijkertijd te laten worden geactiveerd zonder een strikte concurrentie onder hen te forceren. De dynamische bias -aanpassing en hiërarchische poorten zorgen verder ervoor dat elke expert effectief wordt gebruikt, het handhaven van een evenwichtige belasting en het voorkomen van een expert om de routeringsbeslissingen te domineren.
Citaten:
[1] https://www.linkedin.com/posts/sathiyakerthi_how-deepseek-v3-picks-perfect-experts-activity-7287631625310412800-ncyv
[2] https://martinfowler.com/articles/deepseek-papers.html
[3] https://epochai.substack.com/p/how-has-deepseek-improved-the-transformer
[4] https://machinelearningatscale.substack.com/p/deepseek-v3-model
[5] https://fireworks.ai/blog/deepseek-model-architecture
[6] https://aman.ai/primers/ai/deepseek-r1/
[7] https://gonzoml.substack.com/p/deepseek-v3-technical-details
[8] https://www.kisekilabs.com/blog-posts/why-deepseek-v3-matters-in-the-werd-of-llms