Deepseek, hitro rastoči kitajski zagon AI, uporablja več strategij za učinkovito upravljanje obsežnih zahtev z žetoni, zlasti prek zadnjega modela, Deepseek-V3. Ta model uporablja arhitekturo mešanic eksperit (MOE), ki mu omogoča, da selektivno aktivira podskupino parametrov za vsak obdelani žeton. Konkretno, Deepseek-V3 ima skupno 671 milijard parametrov, vendar se za vsak žeton med sklepom aktivira le 37 milijard. Ta zasnova znatno poveča računsko učinkovitost v primerjavi s tradicionalnimi gostimi modeli, kjer so vsi parametri vključeni za vsako zahtevo [1] [4].
Za nadaljnjo optimizacijo uspešnosti Deepseek-V3 izvaja učinkovito strategijo uravnoteženja obremenitve v celotnem postopku treninga in sklepanja. Ta pristop zagotavlja, da v obeh fazah ne spustijo nobenih žetonov. Model ohranja dobro ravnovesje obremenitve z uporabo omejenega mehanizma usmerjanja, ki omejuje komunikacijske stroške in omogoča skoraj popolno prekrivanje računanja. Kot rezultat, lahko Deepseek-V3 obravnava velike količine zahtev žetona, ne da bi pri tem žrtvovali uspešnost ali zanesljivost [2] [4].
Glede na usposabljanje je Deepseek-V3 predhodno usposobljen na obsežnem naboru podatkov, ki obsega 14,8 trilijona žetonov, ki mu sledijo faze nadzorovanega natančnega nalaganja in okrepitve, da bi izboljšali svoje zmogljivosti. Postopek usposabljanja je zasnovan tako, da je stabilen in učinkovit, v manj kot dveh mesecih pa se dopolnjuje s skupnimi stroški približno 5,576 milijona dolarjev v urah GPU [1] [2]. Ta učinkovita uporaba virov omogoča Učinkovito povečanje Deepseeka, hkrati pa upravlja z obsežnimi zahtevami žetona v svojih storitvah.
Na splošno inovativna arhitektura in strateški pristopi Deepseeka omogočajo učinkovito obravnavo velikih zahtev za žeton, zaradi česar je konkurenčen igralec v AI pokrajini.
Navedbe:
[1] https://thehackernews.com/2025/01/top-rated-chinese-ai-app-deepseek.html
[2] https://arxiv.org/html/2412.19437V1
[3] https://protos.com/chinese-openai-rival-deepseek-limits-signups-after-Large-scale-attack/
[4] https://encord.com/blog/deepseek-ai/
[5] https://www.techtarget.com/whatis/feature/deepseek-explained-everything-you-need-doinw
[6] https://www.reddit.com/r/localllama/comments/1hzkw3f/deepseek_v3_is_the_gift_that_epts_on_giving/
[7] https://www.cnbc.com/2025/01/27/Deepseek-hit-with-large-cybertattack-says-its-limiting-registrations.html
[8] https://daily.dev/blog/deepseek-everything-you-need-do-vezna-about-this-new-llm-in-one-flace