DeepSeek-R1은 복잡한 다중 회전 대화를 관리하기 위해 정교한 접근 방식을 사용하여 RL (Rinforcement Learning)과 구조화 된 교육 프로세스를 결합합니다. 이 모델은 추론 능력을 향상시키고 여러 상호 작용에 대한 응답의 일관성을 향상 시키도록 설계되었습니다.
다단계 교육 프로세스
1. Cold Start 단계 : 초기에 DeepSeek-R1은 고품질 데이터를 사용하여 미세 조정되어 응답의 명확성과 일관성을위한 견고한 기반을 구축하는 데 도움이됩니다. 이 단계는 가독적 인 가독성과 혼합 출력과 같은 일반적인 문제를 다룹니다 [1] [3].
2. 강화 학습 : DeepSeek-R1의 훈련의 핵심에는 순수한 RL이 포함되어있어 모델이 시행 착오를 통해 배울 수 있습니다. 이 방법은 문제 해결 기술과 추론 능력을 향상시켜 광범위한 레이블이 붙은 데이터 세트에 덜 의존합니다 [2] [3].
3. 거부 샘플링 : RL의 수렴 근처 에서이 모델은 이전 성공적인 실행에서 가장 좋은 예를 선택하여 합성 데이터를 생성하기 위해 거부 샘플링을 사용합니다. 이 단계는 훈련 데이터의 다양성과 품질을 높이고 모델의 기능을 더욱 개선합니다 [1].
4. 최종 RL 단계 : 다양한 영역에서 합성 및 감독 데이터를 통합 한 후 DeepSeek-R1은 다양한 프롬프트 및 시나리오에서 효과적으로 일반화 할 수 있도록 최종 강화 학습 단계를 겪습니다. 이 단계는 실제 응용 프로그램에서 성능을 유지하는 데 중요합니다 [1].
다중 회전 대화 처리
DeepSeek-R1의 아키텍처를 통해 대화에서 여러 번의 회전에서 컨텍스트를 유지할 수 있습니다. 사용자와 어시스턴트의 이전 메시지를 추가함으로써 대화 기록을 효과적으로 추적 할 수 있습니다. 예를 들어, 사용자가 질문과 다른 관련 문의와 관련된 질문을 할 때 DeepSeek-R1은 이전 교환을 참조하여 관련 및 일관된 응답을 제공 할 수 있습니다 [1] [3].
성능 통찰력
강점에도 불구하고 DeepSeek-R1의 초기 버전은 다중 회전 대화에서 반복적 인 반응으로 도전에 직면했습니다. 그러나 훈련 방법론의 지속적인 개선은 맥락이나 일관성을 잃지 않고 복잡한 대화를 처리하는 능력을 크게 향상시켰다 [3] [4].
요약하면 DeepSeek-R1의 다단계 교육 프로세스 및 강화 학습 프레임 워크를 통해 품질 데이터의 탄탄한 기초를 구축하고 반복 학습을 통해 추론 기능을 개선하여 복잡한 다중 회전 대화를 효과적으로 관리 할 수 있습니다.
인용 :[1] https://www.vellum.ai/blog/the-training-of-deepseek-r1-and-ways-to-use-it
[2] https://arxiv.org/html/2501.12948v1
[3] https://felloai.com/2025/01/deepseek-r1-open-source-ai-thats-bating-google-and-openai/
[4] https://www.reddit.com/r/localllama/comments/1i7fjqm/deepseek_r1_is_unusable_imho/
[5] https://www.datacamp.com/blog/deepseek-r1
[6] https://github.com/deepseek-ai/deepseek-r1/blob/main/readme.md
[7] https://api-docs.deepseek.com/guides/multi_round_chat
[8] https://www.linkedin.com/pulse/deepseek-revolutizing-ai-open-source-reasoning-20-ramachandran-xakme