Deepseek, en hurtigt voksende kinesisk AI-opstart, anvender flere strategier til effektivt at styre store token-anmodninger, især gennem sin seneste model, Deepseek-V3. Denne model anvender en blanding af eksperter (MOE) arkitektur, som giver den mulighed for selektivt at aktivere en undergruppe af parametre for hver behandlet token. Specifikt har DeepSeek-V3 i alt 671 milliarder parametre, men kun 37 milliarder er aktiveret for hvert token under inferens. Dette design forbedrer beregningseffektiviteten markant sammenlignet med traditionelle tætte modeller, hvor alle parametre er engageret i hver anmodning [1] [4].
For yderligere at optimere ydeevnen implementerer DeepSeek-V3 en effektiv belastningsafbalanceringsstrategi gennem dens trænings- og inferensprocesser. Denne tilgang sikrer, at ingen tokens falder i begge faser. Modellen opretholder en god belastningsbalance ved at anvende en begrænset routingmekanisme, der begrænser kommunikationsomkostningerne og giver mulighed for næsten fuld beregningskommunikationsoverlapning. Som et resultat kan DeepSeek-V3 håndtere store mængder token-anmodninger uden at ofre ydeevne eller pålidelighed [2] [4].
Med hensyn til træning er Deepseek-V3 forududdannet på et omfattende datasæt, der omfatter 14,8 billioner tokens, efterfulgt af stadier af overvåget finjustering og forstærkningslæring for at forfine sine kapaciteter. Uddannelsesprocessen er designet til at være stabil og effektiv og afsluttes på mindre end to måneder med en samlet omkostning på ca. $ 5,576 millioner i GPU -timer [1] [2]. Denne effektive brug af ressourcer giver Deepseek mulighed for at skalere effektivt, mens de administrerer store token-anmodninger på tværs af sine tjenester.
Generelt gør Deepseeks innovative arkitektur og strategiske tilgange det i stand til at håndtere betydelige token -anmodninger effektivt, hvilket gør det til en konkurrencedygtig spiller i AI -landskabet.
Citater:
[1] https://thehackernews.com/2025/01/top-rated-chinese-i-app-deepseek.html
[2] https://arxiv.org/html/2412.19437v1
)
[4] https://encord.com/blog/deepseek-i/
)
)
)
[8] https://daily.dev/blog/deepseek-everything-you-need-to-now-cout-this-new-llm-in-on-one-sted