Sigmoid-kapu a DeepSeek-V3-ban: Az útválasztás összeomlásának megakadályozása a szakértőkkeverék modellekben

Hogyan segít a Sigmoid Gating segíteni az útválasztás megakadályozásában a mély-V3-ban

A Sigmoid Gating a DeepSeek-V3-ban döntő szerepet játszik az útválasztás összeomlásának megelőzésében, amely a szakértők keverékének (MOE) modelljeinek általános kérdése, ahol néhány szakértő következetesen kedvelt másokkal szemben, ami nem hatékony képzéshez és a modell erőforrások felhasználásához vezet. Így segíti a Sigmoid Gating:

Hagyományos softmax kapu vs. Sigmoid Gating

A hagyományos MOE modellek gyakran használnak SoftMax-kapust, ami "nyertes-mindenki" forgatókönyvhez vezethet. A SoftMax kimeneteket normalizálják, hogy azok 1 -re összegezzék, ami szélsőséges valószínűségeket eredményezhet, amikor az egyik szakértőt szinte kizárólag választják, különösen, ha a kezdeti súlyok kissé jobbak. Ez más szakértőknek alulfelhasználható és alulteljesítését eredményezheti, ami az útválasztás összeomlásához vezethet.

Ezzel szemben a Sigmoid Gating minden szakértőnek 0 és 1 közötti pontszámot hozzárendel, a szakértők normalizálása nélkül. Ez azt jelenti, hogy több szakértő egyidejűleg magas pontszámmal rendelkezik, lehetővé téve a tokenek kiegyensúlyozottabb eloszlását a szakértők között. A Sigmoid Gating nem hajtja végre a szigorú versenyt a szakértők között, csökkentve az összeomlás útválasztásának valószínűségét azzal, hogy minden szakértő tisztességes esélyt kapjon a hozzájáruláshoz [1] [4] [6].

Dinamikus torzítás beállítása

A DeepSeek-V3 tovább javítja a szigmoid kapuit azáltal, hogy az egyes szakértők számára dinamikus torzítási kifejezéseket vezet be. Ezeket az torzításokat az edzés során az egyes szakértők terhelése alapján állítják be. Ha egy szakértő túlterhelt, akkor az elfogultság csökken, hogy elriasztja a további irányítást, míg az alulteljesített szakértők torzulásaikat növelik, hogy több tokent vonzzanak. Ez a dinamikus kiigazítás elősegíti a kiegyensúlyozott terhelés fenntartását az összes szakértőnél, megakadályozva, hogy egyetlen szakértő uralja az útválasztási döntéseket, és ezáltal megakadályozza az útválasztási összeomlást [2] [4] [6].

Hierarchikus kapu

A DeepSeek-V3 hierarchikus adagolást is alkalmaz, amely több szintű sparsitási korlátokat alkalmaz. Kezdetben durva szakértők választékot készítenek, amelyet a kiválasztott csoportokban finomabb szűrés követ. Ez a hierarchikus megközelítés biztosítja, hogy minden egyes token számára sokféle szakértő aktiválódjon, tovább csökkentve az összeomlás útválasztásának kockázatát azáltal, hogy megakadályozzák a túlzott specifikációt és ösztönözzük az általánosítást a különböző területeken [1] [6].

csomópont-korlátozott útválasztás

Ezenkívül a DeepSeek-V3 a csomópont-korlátozott útválasztást használja, amely korlátozza az egyes tokenek számát, amelyekkel kommunikálhat. Ez a stratégia minimalizálja a csomópontok közötti kommunikációt, biztosítva a hatékony képzést és következtetéseket, miközben fenntartja a kiegyensúlyozott szakértői felhasználást [6].

Összefoglalva: a Sigmoid Gating a DeepSeek-V3-ban segít megakadályozni az útválasztást azáltal, hogy több szakértő egyidejűleg aktiválódását lehetővé tenné anélkül, hogy szigorú versenyt kényszerítne köztük. A dinamikus torzítás beállítása és a hierarchikus kapu tovább biztosítja, hogy minden szakértő hatékonyan felhasználható legyen, fenntartva a kiegyensúlyozott terhelést és megakadályozva, hogy minden szakértő uralja az útválasztási döntéseket.

Idézetek:
[1] https://www.linedin.com/posts/sathiyakeerthi_how-deepseek-v3-picks-perti-experts-activity-7287631625310412800-ncyv
[2] https://martinfowler.com/articles/deepseek-papers.html
[3] https://epochai.substack.com/p/how-has-deepseek-mproved-t-transzformátor
[4] https://machinelearningatcale.substack.com/p/deepseek-v3-model
[5] https://fireworks.ai/blog/deepseek-model-architecture
[6] https://aman.ai/primers/ai/deepseek-r1/
[7] https://gonzoml.substack.com/p/deepseek-v3-technical-details
[8] https://www.kisekilabs.com/blog-posts/why-deepseek-v3-matters-in-the-world-of-llls