„Deepseek“, sparčiai augantis kinų AI startuolis, naudojasi keliomis strategijomis, kad būtų galima efektyviai valdyti didelio masto prieigos raktų užklausas, ypač per naujausią jo modelį „Deepseek-V3“. Šis modelis naudoja ekspertų mišinio (MOE) architektūrą, kuri leidžia selektyviai suaktyvinti kiekvieno apdoroto žetono parametrų pogrupį. Tiksliau, „Deepseek-V3“ iš viso turi 671 milijardą parametrų, tačiau kiekvieno ženklo metu suaktyvinta tik 37 milijardai. Šis dizainas žymiai padidina skaičiavimo efektyvumą, palyginti su tradiciniais tankiais modeliais, kai visi parametrai yra naudojami kiekvienam prašymui [1] [4].
Siekdamas dar labiau optimizuoti našumą, „DeepSeek-V3“ įgyvendina veiksmingą apkrovos balansavimo strategiją per visą savo mokymo ir išvadų procesus. Šis požiūris užtikrina, kad nė vienos fazės metu nėra žetonų. Modelis palaiko gerą apkrovos balansą, naudodamas ribotą maršruto parinkimo mechanizmą, kuris riboja ryšio sąnaudas ir leidžia beveik visiškai apskaičiuoti komunikaciją. Dėl to „Deepseek-V3“ gali tvarkyti didelius prieigos raktų užklausų kiekius neprarandant našumo ar patikimumo [2] [4].
Kalbant apie mokymą, „DeepSeek-V3“ iš anksto apmokytas plačiame duomenų rinkinyje, sudarytame iš 14,8 trilijono žetonų, po to seka prižiūrimų tobulinimo ir armatūros mokymosi etapai, kad būtų galima patikslinti jo galimybes. Mokymo procesas yra skirtas stabiliam ir efektyviam, baigdamas per mažiau nei du mėnesius, o bendros išlaidos yra maždaug 5,576 mln. USD GPU valandomis [1] [2]. Šis efektyvus išteklių naudojimas leidžia „Deepseek“ efektyviai mastelio masteliui, tuo pačiu valdant didelio masto prieigos raktų užklausas visose savo paslaugose.
Apskritai, „Deepseek“ novatoriška architektūra ir strateginiai požiūriai leidžia efektyviai tvarstyti esminius žetonų užklausas, todėl AI kraštovaizdyje jis tampa konkurencingu žaidėju.
Citatos:
[1] https://thehackernews.com/2025/01/top-rated-chinese-ai-app-deepseek.html
[2] https://arxiv.org/html/2412.19437v1
[3] https://protos.com/chinese-openai-oprival-deepseek-limits-signups-her-large-scale-attack/
[4] https://encord.com/blog/deepseek-ai/
[5] https://www.techtarget.com/whatnis/feature/deepseek-explained-Everything-you-Beed-to-know
[6] https://www.reddit.com/r/localllama/comments/1hzkw3f/deepseek_v3_is_the_gift_that_keeps_on_giving/
[7] https://www.cnbc.com/2025/01/27/deepseek-hit-with-large-scale-cyberAttack-says-its-liming-registracijos.html
[8] https://daily.dev/blog/deepseek-everything-you-eed-to-know-out-out-this-new-llm-in-one-place