Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon DeepSeek R1如何在长时间的对话中保持背景


DeepSeek R1如何在长时间的对话中保持背景


DeepSeek R1采用了几种创新策略来维持长时间对话的背景,利用其先进的体系结构和培训方法。

##建筑特征

**专家(MOE)建筑的混合物
DeepSeek R1利用了专家体系结构的混合物,这使其仅在每个远程通行证中仅激活其6710亿个参数的子集,尤其是370亿。这种选择性激活显着提高了计算效率,使该模型能够处理高达128,000个令牌的扩展序列,同时保持其响应中的连贯性和准确性[1] [3]。 MOE路由系统旨在专门针对各种推理任务的不同专家,这对于管理复杂的对话至关重要,并确保模型可以随着扩展对话而不会失去上下文的跟踪。

##培训方法

**增强学习(RL)方法
与密切依赖受监督的微调的传统模型不同,DeepSeek R1主要使用加固学习训练。该方法允许模型自动开发推理能力。培训过程包括多个阶段:从冷启动数据开始以建立坚实的基础,然后进行纯RL以提高推理技能,并最终在不同的提示中进一步的RL培训[2] [4]。这种多阶段方法有助于模型从结构化数据和现实世界中的交互中学习,这对于维持较长交换的上下文至关重要。

**冷启动数据利用率
培训的初始阶段包含精心策划的冷启动数据,有助于提高响应的可读性和连贯性。该数据可确保模型的输出不仅准确,而且可以用户友好,从而解决了在较早的迭代中发现的常见问题,例如较差的可读性和语言混合[2] [4]。通过建立包括推理过程和摘要的结构化输出格式,DeepSeek R1有效地保留了整个漫长的对话的上下文。

##性能和上下文管理

DeepSeek R1有效处理长篇小说的能力与该领域的领先模型相当。它在各种基准测试中的性能表明,即使进行了复杂的对话,也可以保持清晰度和逻辑流程的能力。该模型的设计使其可以在每个响应中生成数千个推理令牌,同时确保对话保持连贯[1] [3]。此外,自我验证和反思机制的整合使其能够重新评估以前的陈述并保持讨论中的连续性。

总体而言,DeepSeek R1代表着通过其复杂的建筑和创新培训实践来维持对话环境的重大进步。

引用:
[1] https://unfoldai.com/deepseek-r1/
[2] https://www.vellum.ai/blog/the-training-of-deepseek-r1-r1-and-ways-to-use-it
[3] https://c3.unu.edu/blog/deepseek-r1-pioneering-open-source-thinking-model-and-model-and-ins-impact-in-the-llm-landscape
[4] https://arxiv.org/html/2501.12948v1
[5] https://forum.cursor.com/t/deepseek-r1-cancelled/44578
[6] https://www.reddit.com/r/openai/comments/1i5pr7q/it_just_happened_deepseekr1_is_here/
[7] https://github.com/deepseek-ai/deepseek-r1/actions
[8] https://news.ycombinator.com/item?id=42823568