DeepSeek-V3: ekspertu maršrutēšanas uzlabošana ar sigmoid funkciju ekspertu arhitektūras sajaukumā

Kā sigmoid funkcija ietekmē afinitātes rādītāja aprēķinu DeepSEEK-V3

DeepSEEK-V3 sigmoid funkcijai ir izšķiroša loma, aprēķinot afinitātes rādītājus ekspertu maršrutēšanai ekspertu (MOE) arhitektūras sajaukumā. Atšķirībā no tradicionālajiem MOE modeļiem, kas bieži izmanto funkciju Softmax, lai normalizētu afinitātes rādītājus, DeepSEEK-V3 izmanto sigmoid funkciju. Šīs izmaiņas ietekmē modeli vairākos veidos:

1. Normalizācija un maršrutēšana: sigmoid funkciju izmanto, lai aprēķinātu afinitātes rādītājus, kurus pēc tam normalizē starp visiem izvēlētajiem afinitātes rādītājiem, lai iegūtu vārtu vērtības. Šī pieeja ļauj izmantot elastīgāku un niansētāku maršrutēšanas mehānismu, salīdzinot ar SoftMax, kas dažreiz var izraisīt maršrutēšanas sabrukumu, kur daži eksperti ir pārāk atbalstīti [4] [7].

2. Izvairīšanās no maršrutēšanas sabrukšanas: maršrutēšanas sabrukums notiek, ja lielākā daļa žetonu tiek novirzīti uz nelielu ekspertu apakškopu, izraisot neefektīvu skaitļošanas resursu izmantošanu. DeepSEEK-V3 to mazina, izmantojot sigmoīdu vārtu veidošanu un ieviešot aizspriedumu terminus, kas dinamiski pielāgojas apmācības laikā. Šie aizspriedumu termini palīdz līdzsvarot ekspertus slodzi, nepaļaujoties uz papildu zaudējumiem, kas var negatīvi ietekmēt modeļa veiktspēju [4] [9].

3. Neobjektivitātes termini un dinamiskā pielāgošana: modelī katram ekspertam ir pievienoti novirzes termini, kas tiek pievienoti afinitātes rādītājiem pirms labāko K ekspertu atlases. Šie aizspriedumu termini tiek dinamiski koriģēti, pamatojoties uz katra eksperta slodzi. Ja eksperts ir pārslogots, tā aizspriedumu termins samazinās, un, ja tas ir nepietiekami ielādēts, neobjektivitātes termins palielinās. Tas nodrošina līdzsvarotu žetonu sadalījumu starp ekspertiem bez nepieciešamības pēc papildu zaudējumiem [4] [8].

4. Papildu secības ziņā gudri palīglīdzekļi: lai arī DeepSEEK-V3 galvenokārt izvairās no palīgdarbības zaudējumiem, tas ietver nelielu secības līdzsvara zudumu, lai novērstu ārkārtējus gadījumus, kad viena secība lielā mērā veicina nelielu ekspertu apakškopu. Šie zaudējumi darbojas kā aizsardzība, būtiski neietekmējot vispārējo apmācības dinamiku [4].

5. Mezgla ierobežota maršrutēšana: Lai kontrolētu komunikācijas izmaksas, DeepSEEK-V3 izmanto mezglu ierobežotu maršrutēšanu, kur katrs marķieris tiek nosūtīts ne vairāk kā M mezgliem, pamatojoties uz visaugstākajiem afinitātes rādītājiem. Šī stratēģija ļauj apmācības laikā, uzlabojot efektivitāti [4], nodrošina gandrīz pilnu skaitļošanas komunikāciju pārklāšanos, uzlabojot efektivitāti [4].

Kopumā sigmoid funkcijas izmantošana DeepSEEK-V3 ļauj izmantot elastīgāku un efektīvāku maršrutēšanas mehānismu, veicinot modeļa spēju līdzsvarot ekspertu izmantošanu, neupurējot veiktspēju.

Atsauces:
[1] https://www.linkedin.com/posts/srijanie-dey_aibyhand-depeplearning-neuralnetworks-aktivitāte
[2] https://community.aws/content/2rjj1wkztsfywvfsiibhwxeqmf1/four-unique-takeaways-from-depseek-v3?lang=en
[3.]
[4] https://machinelearningatscale.substack.com/p/deepseek-v3-model
[5] https://ai.gopubby.com/deepseek-v3-explated-3-auxiliary-loss-frea-load-balancing-4beeb734ab1f
[6] https://neurips.cc/virtual/2024/poster/96407
,
[8] https://www.mlsys.ai/papers/deepseek_v3.html
[9] https://gonzoml.substack.com/p/deepseek-v3-technical-details