DeepSeek, rychle rostoucí čínský spuštění AI, využívá několik strategií k efektivnímu řízení požadavků na tokeny ve velkém měřítku, zejména prostřednictvím svého nejnovějšího modelu DeepSeek-V3. Tento model využívá architekturu směsi expertů (MOE), která mu umožňuje selektivně aktivovat podskupinu parametrů pro každý zpracovaný token. Konkrétně má Deepseek-V3 celkem 671 miliard parametrů, ale během závěru je aktivováno pouze 37 miliard pro každý token. Tento návrh významně zvyšuje výpočetní účinnost ve srovnání s tradičními hustými modely, kde jsou všechny parametry zapojeny pro každý požadavek [1] [4].
Pro další optimalizaci výkonu implementuje DeepSeek-V3 efektivní strategii vyrovnávání zátěže během procesů tréninku a inference. Tento přístup zajišťuje, že během jedné fáze nejsou upuštěny žádné žetony. Model udržuje dobrou rovnováhu zatížení využitím omezeného mechanismu směrování, který omezuje náklady na komunikaci a umožňuje téměř úplné překrývání výpočetní komunikace. Výsledkem je, že Deepseek-V3 dokáže zvládnout velké objemy požadavků na token bez obětování výkonu nebo spolehlivosti [2] [4].
Pokud jde o trénink, DeepSeek-V3 je předem vyškolen na rozsáhlém datovém souboru zahrnujícím 14,8 bilionových žetonů, následuje fáze pod dohledem jemného doladění a posílení učení, aby se zdokonalila jeho schopnosti. Proces školení je navržen tak, aby byl stabilní a efektivní, a dokončil za méně než dva měsíce s celkovými náklady na přibližně 5,576 milionu USD v hodinách GPU [1] [2]. Toto efektivní využití zdrojů umožňuje DeepSeek efektivně měřítko při správě rozsáhlých požadavků na tokeny napříč svými službami.
Inovativní architektura a strategické přístupy Deepseeka celkově umožňují jí zvládnout podstatné požadavky na token, což z něj činí konkurenční hráč v krajině AI.
Citace:
[1] https://thehackernews.com/2025/01/top-dated-Cinese-Ai-app-deepseek.html
[2] https://arxiv.org/html/2412.19437v1
[3] https://protos.com/chinese-openai-rival-deepseek-limits-signups-after-large-sale-actack/
[4] https://encord.com/blog/deepseek-ai/
[5] https://www.techtarget.com/whitis/feature/deepseek-expplaided-everything-you-need-to-know
[6] https://www.reddit.com/r/localllama/comments/1hzkw3f/deepseek_v3_is_the_gift_that_keeps_on_giving/
[7] https://www.cnbc.com/2025/01/27/deepseek-with-large-Scale-Cyberattack-says- its-limiting-registrations.html
[8] https://daily.dev/blog/deepseek-everything-you-n-nnow-book-this-new-lm-in-one-place