DeepSeek是一家快速发展的中国人工智能创业公司,采用了几种策略来有效地管理大规模令牌请求,尤其是通过其最新模型DeepSeek-V3。该模型利用了Experts(MOE)体系结构的混合物,它允许其选择性地激活每个处理的令牌参数子集。具体而言,DeepSeek-V3的总数为6710亿个参数,但在推断期间,每个令牌都只能激活370亿个参数。与传统密集模型相比,该设计显着提高了计算效率,在每个请求中,所有参数都参与其中[1] [4]。
为了进一步优化性能,DeepSeek-V3在整个培训和推理过程中实现了有效的负载平衡策略。这种方法可确保在任一阶段均未删除任何令牌。该模型通过利用限制限制通信成本并允许几乎完整的计算通信重叠的限制路由机制来保持良好的负载平衡。结果,DeepSeek-V3可以在不牺牲性能或可靠性的情况下处理大量令牌请求[2] [4]。
在培训方面,DeepSeek-V3已在一个包含14.8万亿代币的广泛数据集中进行了预培训,然后进行了监督的微调和强化学习以完善其功能的阶段。该培训过程旨在稳定且高效,在不到两个月的时间内完成,总成本约为557.6万美元的GPU小时[1] [2]。这种有效的资源利用可以使DeepSeek在管理大规模代币请求的同时进行有效的扩展。
总体而言,DeepSeek的创新架构和战略方法使其能够有效地处理大量的令牌请求,从而使其成为AI景观中的竞争参与者。
引用:
[1] https://thehackernews.com/2025/01/top-rated-chinese-aib-app-deepseek.html
[2] https://arxiv.org/html/2412.19437v1
[3] https://protos.com/chinese-popenai-rival-deepseek-limits-signups-signups- ferter-large-scale-attack/
[4] https://encord.com/blog/deepseek-ai/
[5] https://www.techtarget.com/whatis/feature/deepseek-explain--verain--verything-yverthing-you-need-need
[6] https://www.reddit.com/r/localllama/comments/1hzkw3f/deepseek_v3_is_is_the_the_gift_that_that_keeps_kepes_on_giving/
[7] https://www.cnbc.com/2025/01/27/deepseek-hit-with-with-large-scale-scale-cyberattack-says-ins-ins-ins-limiting-registrations.html
[8] https://daily.dev/blog/deepseek-everything-you-need-to-know-bout-mout-this-new-llm-in-in-In-in-in-in-in-phack