„Deepseek-V3“: dinaminis šališkumo reguliavimas ir „Sigmoid“ vartai efektyviam ekspertų panaudojimui

„Deepseeek-V3“, dinaminis šališkumo terminų ir sigmoidinio vartų darbų koregavimas kartu, siekiant padidinti modelio efektyvumą ir našumą, spręsdami ekspertų apkrovos disbalanso problemą. Čia pateiktas išsamus paaiškinimas, kaip šie komponentai papildo vienas kitą:

Dinaminis šališkumo terminų koregavimas

„Deepseek-V3“ pristato kiekvieno eksperto šališkumo terminą, kuris yra dinamiškai koreguojamas treniruotės metu, kad būtų išlaikytas apkrovos balansas. Šis požiūris išvengia pagalbinių nuostolių, kurie gali neigiamai paveikti modelio našumą, poreikį, priversdamas jį prioritetą nustatyti apkrovos balansą, o ne optimalius maršruto parinkimo sprendimus. Prieš priimant sprendimą dėl aukščiausio lygio K maršruto parinkimo, šališkumo terminas pridedamas prie eksperto giminingumo balo, tačiau jis neturi įtakos vartų vertei, kuri yra kilusi iš pradinio giminingumo balo. Tai užtikrina, kad eksperto indėlis išliks nepažeistas, tuo pačiu skatinant subalansuotą maršrutą.

- Koregavimo mechanizmas: Jei ekspertas yra perkrautas (gauna daugiau žetonų nei vidutiniškai), jo šališkumo terminas sumažėja. Ir atvirkščiai, jei ekspertas yra nepakankamas, padidėja jo šališkumo terminas. Šis koregavimas padeda išvengti maršruto žlugimo, kai modelis gali palankiai įvertinti keletą ekspertų, todėl neefektyvus skaičiavimas ir sumažinta specializacijos nauda.

„Sigmoid Gating“

„Deepseek-V3“ pakeičia tradicinį „SoftMax“ vartą „Sigmoid“, skirtą ekspertų maršrutizavimui. Šis pakeitimas leidžia kiekvienam ekspertui turėti nemažą galimybę būti išrinktas, nes „Sigmoid“ funkcija nustato bet kokį realiai įvertintą skaičių iki vertės nuo 0 iki 1. Skirtingai nuo „SoftMax“, kuris gali sukurti konkurencingą aplinką tarp ekspertų (kur vieno eksperto nauda yra kito praradimas), „Sigmoid“ vartai užtikrina, kad kiekvieno eksperto balas yra nepriklausomas, o mažina priverstinę varžovą.

- „Sigmoid“ vartų pranašumai: Šis požiūris neleidžia modeliui per daug palankiai įvertinti kelių ekspertų, o tai gali sukelti nepakankamai kitų ekspertų naudojimą ir sumažinti modelio atlikimą. Suteikdamas kiekvienam ekspertui sąžiningą kadrą, „Sigmoid Gating“ skatina labiau subalansuotą ir įvairesnį ekspertų panaudojimą, padidindamas bendrą modelio galimybes ir efektyvumą.

papildomas sekos pagalbinis nuostolis

Nors pagrindinis mechanizmas yra be pagalbinių nuostolių, „Deepseek-V3“ taip pat apima papildomą sekos pusiausvyros praradimą. Šis praradimas, kurį kontroliuoja labai mažas hiperparametras, veikia kaip apsauga, siekiant užkirsti kelią kraštutiniams atvejams, kai viena seka gali labai palankiai padėti nedideliam ekspertų pogrupiui. Tai užtikrina pusiausvyrą kiekvienoje sekoje, nedarant reikšmingos įtakos bendrai treniruočių dinamikai.

Kaip dinaminis šališkumo reguliavimas ir sigmoidinis vartas papildo vienas kitą

1. Subalansuotas ekspertų panaudojimas: Dinaminis šališkumo terminų koregavimas užtikrina, kad joks ekspertas nėra per daug palankesnis ar nepakankamai išnaudojamas, išlaikant subalansuotą apkrovą visiems ekspertams. „Sigmoid Gating“ tai palaiko suteikdamas kiekvienam ekspertui savarankišką rezultatą, mažindamas konkurenciją ir užtikrindamas, kad kiekvienas ekspertas turėtų galimybę prisidėti.

2. Efektyvus maršrutas: dinamiškai pakoreguodamas šališkumo terminus, pagrįstus ekspertų panaudojimu, modelis gali efektyviai nukreipti žetonus į tinkamiausius ekspertus, nepasikliaudamas pagalbiniais nuostoliais, kurie gali pakenkti veikimui. „Sigmoid“ vartai palengvina šį veiksmingą maršruto nustatymą, leisdamas labiau niuansuoti atrankos procesą.

3. Patobulintas modelio našumas: dinaminio šališkumo koregavimo ir „Sigmoid“ vartų derinys padidina modelio našumą užtikrinant, kad kiekvienas žetonas būtų apdorojamas tinkamiausiu ekspertų rinkiniu. Tai lemia geresnę specializaciją ir dalijimąsi žiniomis tarp ekspertų, pagerinant modelio sugebėjimą efektyviai atlikti įvairias užduotis.

Apibendrinant galima pasakyti, kad dinaminis šališkumo terminų ir sigmoidinio vartų koregavimas „Deepseek-V3“ veikia kartu, kad būtų pasiektas subalansuotas ekspertų panaudojimas, efektyvus maršrutas ir patobulintas modelio našumas, vengdami tradicinių pagalbinių nuostolių trūkumų.

Citatos:
[1] https://machinelarningatscale.substack.com/p/deepseek-v3-model
[2] https://www.linkedin.com/posts/sathiyakeerthi_how-sepseek-v3-picks-perfect-experts-activity-7287631625310412800-NCYV
[3] https://prouveringings.neurips.cc/paper_files/paper/2024/file/1cded4f97cf5f01a284c574110b7e3b9-paper-conference.pdf
[4] https://www.linkedin.com/posts/josif-grabock-7651b37_241219437v1-actity-7289784195130781696-DM_V
[5] https://huggingface.co/deepseek-ai/deepseek-v3/blob/main/configuration_deepseek.py
[6] https://ai.gopubby.com/deepseek-v3-xplained-2-deepseekmoe-106cffcc56c1
[7] https://gonzoml.substack.com/p/deepseek-v3-technical-details
[8] https://www.youtube.com/watch?v=8V2L6SJECW4
[9] https://rxiv.org/ai/
[10] https://fireworks.ai/blog/deepseek-model-architcture

Kaip dinaminis šališkumo terminų koregavimas papildo sigmoidinį vartą „Deepseek-V3“

Dinaminis šališkumo terminų koregavimas

„Sigmoid Gating“

papildomas sekos pagalbinis nuostolis

Kaip dinaminis šališkumo reguliavimas ir sigmoidinis vartas papildo vienas kitą