DeepSeek R1은 고급 건축 및 훈련 방법론을 활용하여 긴 대화에 대한 맥락을 유지하기 위해 몇 가지 혁신적인 전략을 사용합니다.
건축 기능
** 전문가 (MOE) 건축의 혼합
DeepSeek R1은 전문가 아키텍처의 혼합물을 사용하여 각 순방향 패스 동안 671 억 파라미터의 하위 집합, 특히 370 억 개의 하위 집합 만 활성화 할 수 있습니다. 이 선택적 활성화는 계산 효율성을 크게 향상시켜 모델이 최대 128,000 개의 토큰의 확장 시퀀스를 처리하면서 응답의 일관성과 정확도를 유지할 수있게한다 [1] [3]. MOE 라우팅 시스템은 다양한 추론 작업을위한 다양한 전문가를 전문화하도록 설계되었으며, 이는 복잡한 대화를 관리하고 맥락 추적을 잃지 않고 모델이 연장 된 대화를 따라갈 수 있도록하는 데 중요합니다.
훈련 방법론
** 강화 학습 (RL) 접근
감독 된 미세 조정에 크게 의존하는 전통적인 모델과 달리 DeepSeek R1은 주로 강화 학습을 사용하여 훈련됩니다. 이 방법을 사용하면 모델이 추론 기능을 자율적으로 개발할 수 있습니다. 훈련 과정에는 여러 단계가 포함되어 있습니다. 냉장 된 데이터로 시작하여 견고한 기초를 설정 한 다음 순수한 RL이 추론 기술을 향상시키고 다양한 프롬프트에 걸쳐 추가 RL 교육을 마무리합니다 [2] [4]. 이 다단계 접근 방식은 모델이 구조화 된 데이터와 실제 상호 작용 모두에서 학습하는 데 도움이되며, 이는 더 긴 교환에 대한 컨텍스트를 유지하는 데 필수적입니다.
** 콜드 스타트 데이터 사용
교육의 초기 단계는 신중하게 선별 된 콜드 스타트 데이터를 통합하여 응답의 가독성과 일관성을 향상시키는 데 도움이됩니다. 이 데이터는 모델의 출력이 정확할뿐만 아니라 사용자 친화적 일 수 있도록 보장하며, 가독적 인 가독성 및 언어 혼합과 같은 초기 반복에서 발견되는 일반적인 문제를 해결합니다 [2] [4]. 추론 프로세스 및 요약을 포함하는 구조화 된 출력 형식을 설정함으로써 DeepSeek R1은 긴 대화에서 효과적으로 컨텍스트를 유지합니다.
성능 및 컨텍스트 관리
DeepSeek R1의 긴 상황을 효율적으로 처리하는 능력은 현장의 주요 모델과 비교할 수 있습니다. 다양한 벤치 마크에서의 성능은 복잡한 대화에 참여할 때에도 명확성과 논리적 흐름을 유지하는 능력을 보여줍니다. 이 모델의 디자인을 통해 응답 당 수천 개의 추론 토큰을 생성하면서 대화가 일관성이 유지되도록합니다 [1] [3]. 또한, 자기 검증 및 반사 메커니즘의 통합을 통해 이전 진술을 재평가하고 토론의 연속성을 유지할 수 있습니다.
전반적으로 DeepSeek R1은 정교한 건축과 혁신적인 교육 관행을 통해 대화 맥락을 유지하는 데 중요한 발전을 나타냅니다.
인용 :[1] https://unfoldai.com/deepseek-r1/
[2] https://www.vellum.ai/blog/the-training-of-deepseek-r1-and-ways-to-wes-it
[3] https://c3.unu.edu/blog/deepseek-r1-pioneering-open-open-source-source-modeling-model-and-impact-on-the-llm-landscape
[4] https://arxiv.org/html/2501.12948v1
[5] https://forum.cursor.com/t/deepseek-r1-cancelled/44578
[6] https://www.reddit.com/r/openai/comments/1i5pr7q/it_just_happened_deepseekr1_is_here/
[7] https://github.com/deepseek-ai/deepseek-r1/actions
[8] https://news.ycombinator.com/item?id=42823568