DeepSEEK-V3: ekspertide marsruutimise täiustamine sigmoidse funktsiooniga ekspertide arhitektuuri segus

Kuidas mõjutab sigmoidne funktsioon afiinsuse skoori arvutamist DeepSEEEK-V3-s

Deepseek-V3-s mängib sigmoidfunktsioon olulist rolli ekspertide marsruutimise afiinsusskooride arvutamisel ekspertide (MOE) arhitektuuri segus. Erinevalt traditsioonilistest MOE-mudelitest, mis kasutavad afiinsuse skooride normaliseerimiseks sageli SoftMaxi funktsiooni, kasutab Deepseek-V3 funktsiooni Sigmoid. See muutus mõjutab mudelit mitmel viisil:

1. Normaliseerimine ja marsruutimine: sigmoidset funktsiooni kasutatakse afiinsuse skooride arvutamiseks, mis seejärel normaliseeritakse kõigi valitud afiinsuse skooride vahel, et saada värava väärtusi. See lähenemisviis võimaldab softMaxiga võrreldes paindlikumat ja nüansseeritud marsruutimismehhanismi, mis võib mõnikord viia marsruutimiseni, kus teatud eksperdid on liiga soositud [4] [7].

2. marsruutimise kokkuvarisemise vältimine: marsruutimise kokkuvarisemine toimub siis, kui enamik žetoone suunatakse väikesesse ekspertide alamhulka, mis viib arvutusressursside ebatõhusa kasutamiseni. Deepseek-V3 leevendab seda, kasutades sigmoidset väravat ja tutvustades eelarvamusi, mis treeningu ajal dünaamiliselt kohanevad. Need eelarvamused aitavad tasakaalustada ekspertide koormust, tuginemata lisakaotustele, mis võivad mudeli jõudlust negatiivselt mõjutada [4] [9].

3. eelarvamuste terminid ja dünaamiline kohandamine: mudel sisaldab iga eksperdi eelarvamusi, mis lisatakse afiinsuse hinnetele enne Kip-K-ekspertide valimist. Neid eelarvamuste termineid kohandatakse dünaamiliselt iga eksperdi koormuse põhjal. Kui ekspert on ülekoormatud, väheneb selle eelarvamuste mõiste ja kui see on alakoormatud, suureneb eelarvamuste mõiste. See tagab märkide tasakaalustatud jaotuse ekspertide vahel, ilma et oleks vaja täiendavaid kaotusi [4] [8].

4. Täiendava järjestuseta lisakaotus: kuigi DeepSEEK-V3 väldib peamiselt lisakaotusi, hõlmab see väikest järjestuseta tasakaalukaotust, et vältida ekstreemseid juhtumeid, kus üks järjestus soosib tugevalt väikest ekspertide alamhulka. See kaotus toimib kaitsemeetmena, mõjutamata oluliselt üldist treeningdünaamikat [4].

5. sõlmepiiratud marsruutimine: kommunikatsioonikulude kontrollimiseks kasutab DeepSEEK-V3 sõlme piiratud marsruutimist, kus iga märk saadetakse kõige rohkem M sõlmedele, mis põhinevad kõrgeimatel afiinsuskooridel. See strateegia võimaldab treeningu ajal kattuda peaaegu täis arvutamisega, suurendades tõhusust [4].

Üldiselt võimaldab sigmoidfunktsiooni kasutamine Deepseek-V3-s paindlikumat ja tõhusamat marsruutimismehhanismi, mis aitab kaasa mudeli võimele tasakaalustada ekspertide kasutamist ilma jõudlust ohverdamata.

Tsitaadid:
]
]
]
[4] https://machinelearningatscale.substack.com/p/deepseek-v3-model
]
[6] https://neurips.cc/virtual/2024/poster/96407
]
[8] https://www.mlsys.ai/papers/deepseek_v3.html
[9] https://gonzoml.substack.com/p/deepseek-v3-technical-details