Sigmoidvärav DeepSEEK-V3-s: marsruutimise kokkuvarisemise ärahoidmine segude segumudelites

Kuidas aitab sigmoidne värav marsruutimise kokkuvarisemise ärahoidmisel Deepseek-V3-s

Sigmoidsed väravad Deepseek-V3-s mängib olulist rolli marsruutimise kokkuvarisemise ennetamisel, mis on tavaline probleem kogemuste segu (MOE) mudelites, kus mõned eksperdid eelistavad järjekindlalt teiste suhtes, mis viib ebatõhusa koolituse ja mudeliressursside kasutamiseni. Siit saate teada, kuidas Sigmoid Gating aitab:

Traditsiooniline softmaxi värav vs sigmoidvärav

Traditsioonilised MOE-mudelid kasutavad sageli Softmaxi väravat, mis võib viia "võitja-võtmise stsenaariumi". Softmaxi väljundid normaliseeritakse selleks, et need summad 1 -ni, mis võib põhjustada äärmuslikke tõenäosusi, kui üks ekspert valitakse peaaegu eranditult, eriti kui selle esialgsed kaal on pisut paremad. See võib põhjustada teiste ekspertide alakasutamist ja alaõpet, mis põhjustab marsruutimise kokkuvarisemise.

Seevastu Sigmoid Gating määrab igale eksperdile skoori vahemikus 0 kuni 1 sõltumatult, ilma ekspertide vahel normaliseerimata. See tähendab, et mitmel eksperdil võib olla samaaegselt kõrge hinne, võimaldades märkide tasakaalustatumat jaotust ekspertidel. Sigmoid Gating ei jõusta ekspertide vahel ranget konkurentsi, vähendades marsruutimise tõenäosust, tagades, et iga ekspert saab õiglase võimaluse panustada [1] [4] [6].

Dünaamiline eelarvamuste kohandamine

Deepseek-V3 suurendab veelgi sigmoidset väravat, tutvustades iga eksperdi dünaamilisi eelarvamusi. Neid eelarvamusi kohandatakse koolituse ajal iga eksperdi koormuse põhjal. Kui ekspert on ülekoormatud, vähendatakse selle eelarvamusi, et sellest edasist marsruutimist takistada, samal ajal kui alakoormatud ekspertidel on nende eelarvamused suurenenud, et meelitada rohkem märke. See dünaamiline kohandamine aitab säilitada tasakaalustatud koormust kõigis ekspertides, takistades ühe eksperdi domineerimast marsruutimisotsuseid ja takistades seega marsruutimise kokkuvarisemist [2] [4] [6].

Hierarhiline värav

Deepseek-V3 kasutab ka hierarhilist väravat, mis rakendab hõretuspiiranguid mitmel tasandil. Algselt tehakse ekspertide jäme valik, millele järgneb peenema filtreerimine valitud rühmades. See hierarhiline lähenemisviis tagab, et iga sümboli jaoks aktiveeritakse mitmekesine ekspertide komplekt, vähendades veelgi marsruutimisriski, hoides ära liigse spetsialiseerumise ja soodustades üldistamist erinevates valdkondades [1] [6].

SODE PIIGITUD RUUDUS

Lisaks kasutab Deepseek-V3 sõlme piiratud marsruutimist, mis piirab sõlmede arvu, millega iga märk suudab suhelda. See strateegia minimeerib sõlmedevahelise suhtluse üldkulud, tagades tõhusa koolituse ja järeldused, säilitades samal ajal tasakaalustatud ekspertide kasutamise [6].

Kokkuvõtlikult aitab Deepseek-V3 sigmoidne värav takistada marsruutimise kokkuvarisemist, võimaldades mitut eksperti samaaegselt aktiveerida, sundimata nendevahelist ranget konkurentsi. Dünaamiline eelarvamuste kohandamine ja hierarhiline värav tagavad veelgi, et iga eksperti kasutatakse tõhusalt, säilitades tasakaalustatud koormuse ja takistades ekspertidel domineerimast marsruutimisotsuseid.

Tsitaadid:
]
[2] https://martinfowler.com/articles/deepseek-papers.html
[3] https://epochai.substack.com/p/how-has-deepseek-mproved-the-transformer
[4] https://machinelearningatscale.substack.com/p/deepseek-v3-model
[5] https://fireworks.ai/blog/deepseek-model-architecture
[6] https://aman.ai/primers/ai/deepseek-r1/
[7] https://gonzoml.substack.com/p/deepseek-v3-technical-details
]