DeepSeek-V3: Inovatīva AI arhitektūra efektīviem liela mēroga marķiera pieprasījumiem

Kā DeepSeek rīkojas ar liela mēroga žetonu pieprasījumiem

DeepSeek, strauji augošā ķīniešu AI starta, izmanto vairākas stratēģijas, lai efektīvi pārvaldītu liela mēroga marķieru pieprasījumus, jo īpaši ar savu jaunāko modeli DeepSeek-V3. Šis modelis izmanto Experts maisījuma (MOE) arhitektūru, kas tai ļauj selektīvi aktivizēt parametru apakškopu katram apstrādātajam marķierim. Konkrēti, DeepSEEK-V3 kopumā ir 671 miljards parametru, bet secinājumu laikā katram marķierim ir aktivizēti tikai 37 miljardi. Šis dizains ievērojami uzlabo skaitļošanas efektivitāti, salīdzinot ar tradicionālajiem blīvajiem modeļiem, kur visi parametri ir iesaistīti katram pieprasījumam [1] [4].

Lai vēl vairāk optimizētu veiktspēju, DeepSEEK-V3 īsteno efektīvu slodzes līdzsvarošanas stratēģiju visā tās apmācības un secinājumu procesos. Šī pieeja nodrošina, ka nevienā posmā netiek nomesti žetoni. Modelis uztur labu slodzes bilanci, izmantojot ierobežotu maršrutēšanas mehānismu, kas ierobežo sakaru izmaksas un ļauj gandrīz pilnībā izmantot aprēķinu kopēju pārklāšanos. Tā rezultātā DeepSEEK-V3 var rīkoties ar lielu daudzumu žetonu pieprasījumu, neupurējot veiktspēju vai uzticamību [2] [4].

Apmācības ziņā DeepSEEK-V3 ir iepriekš apmācīts plašā datu kopā, kurā ietilpst 14,8 triljoni žetonu, kam seko uzraudzītas precizēšanas un pastiprināšanas mācīšanās posmi, lai pilnveidotu tās spējas. Apmācības process ir paredzēts stabils un efektīvs, pabeidzot mazāk nekā divos mēnešos ar kopējām izmaksām aptuveni USD 5,576 miljoni GPU stundās [1] [2]. Šī efektīvā resursu izmantošana ļauj DeepSeek efektīvi mērogot, vienlaikus pārvaldot liela mēroga marķieru pieprasījumus visos tā pakalpojumos.

Kopumā DeepSeek novatoriskā arhitektūra un stratēģiskā pieeja ļauj tai efektīvi apstrādāt būtiskus marķieru pieprasījumus, padarot to par konkurētspējīgu spēlētāju AI ainavā.

Atsauces:
[1.]
[2] https://arxiv.org/html/2412.19437v1
[3] https://protos.com/chinese-openai-dival-depseek-limits-signups-fter-large-scale-attack/
[4] https://encord.com/blog/deepseek-ai/
[5] https://www.techtarget.com/whatis/feature/deepseek-explated-houthing-you-need-to-know
[6] https://www.reddit.com/r/localllama/comments/1hzkw3f/deepseek_v3_is_the_gift_that_keeps_on_giving/
[7] https://www.cnbc.com/2025/01/27/deepseek-hit-with-large-scale-cyberattack-says-its-limiting-registration.html
[8] https://daily.dev/blog/deepseek-everything-you-need-to-know-about-this-new-llm-in -one-vietā