DeepSeek-V3 izmanto novatorisku pieeju, lai ielādētu līdzsvarošanu liela mēroga marķieru pieprasījumu laikā, galvenokārt izmantojot tās papildu zaudējumu stratēģiju. Šī metode samazina veiktspējas noārdīšanos, kas var notikt, mēģinot līdzsvarot slodzi visā tās eksemplāru (MOE) arhitektūrā. Šeit ir galvenās sastāvdaļas, kā DeepSeek-V3 pārvalda slodzes līdzsvarošanu:
1. Katra apmācības posma beigās tas dinamiski pielāgo aizspriedumu terminu, kas saistīts ar katru ekspertu, pamatojoties uz to, vai tie ir pārslogoti vai nepietiekami ielādēti. Šī pielāgošana palīdz saglabāt līdzsvarotu slodzi starp ekspertiem, uzlabojot vispārējo modeļa veiktspēju, nepaļaujoties tikai uz palīgdarbības zaudēšanas funkcijām [1] [2].
2. Vairāku taktu prognozēšana (MTP): modelī ir iekļauts vairāku taktu prognozēšanas apmācības mērķis, kas ne tikai uzlabo veiktspēju, bet arī atvieglo spekulatīvu dekodēšanu, kas paātrina secinājumus. Tas ļauj efektīvāk apstrādāt žetonu pieprasījumus, optimizējot to, kā žetoni tiek apstrādāti secinājumu laikā [1] [3].
3. Mezgla ierobežota maršrutēšana: lai samazinātu komunikācijas izmaksas apmācības laikā, DeepSEEK-V3 izmanto ierobežotu maršrutēšanas mehānismu, kas ierobežo katra marķiera apstrādē iesaistīto mezglu skaitu. Katrs marķieris tiek novirzīts uz maksimālu mezglu skaitu, pamatojoties uz visaugstākajiem afinitātes rādītājiem, nodrošinot efektīvu komunikāciju un aprēķinu pārklāšanos [1] [2].
4. DeepSEEK-V3 nokrīt: Pateicoties tā efektīvajai slodzes līdzsvarošanas stratēģijai, DeepSEEK-V3 saglabā labu līdzsvaru visā apmācībā un secinājumos, kas nozīmē, ka tas nevienā posmā neizraisa nevienu žetonu. Šī spēja nodrošina, ka visi ievades žetoni tiek apstrādāti bez zaudējumiem, vēl vairāk uzlabojot modeļa efektivitāti un uzticamību [1] [4].
5. Mērogojamība un efektivitāte: ar 671 miljardu parametru un tikai 37 miljardiem aktivizētu uz vienu marķieri secinājumu laikā DeepSEEK-V3 ir paredzēts mērogojamībai, vienlaikus saglabājot pārvaldāmu skaitļošanas prasības. Šī selektīvā aktivācija veicina tās spēju efektīvi apstrādāt liela mēroga pieprasījumus [4] [5].
Kopumā DeepSEEK-V3 sarežģītie slodzes līdzsvarošanas mehānismi ļauj tai efektīvi pārvaldīt liela mēroga žetonu pieprasījumus, vienlaikus saglabājot augstu veiktspēju un samazinot resursu izmantošanu.
Atsauces:
[1] https://arxiv.org/html/2412.19437v1
[2] https://huggingface.co/deepseek-ai/deepseek-v3/blob/main/readme.md
[3] https://docsbot.ai/models/deepseek-v3
[4] https://encord.com/blog/deepseek-ai/
[5] https://requesty.ai/blog/deepseek-v3-cline
[6] https://arxiv.org/pdf/2412.19437.pdf
[7] https://github.com/deepseek-ai/deepseek-v3/labels
[8] https://www.linkedin.com/pulse/why-depseek-r1-going-viral-new-e-cost-effective-llms-horneman-i8lje