DeepSeek R1은 전통적인 감독 된 미세 조정 (SFT) 방법에서 나오는 새로운 강화 학습 (RL) 접근법을 통해 추론 능력을 향상시킵니다. 이 혁신적인 전략을 통해 모델은 독립적이고 효율적으로 추론 기술을 개발할 수 있습니다.
강화 학습 프레임 워크
DeepSeek R1은 사전 표지 된 데이터 세트에 의존하지 않고 모델을 시행 착오에서 배울 수있는 규칙 기반 RL 프레임 워크 그룹 상대 정책 최적화 (GRPO)를 사용합니다. 이 접근법을 통해 모델은 방대한 솔루션 공간을 탐색하여 감독 된 교육 데이터에 존재하지 않을 수있는 고유 한 추론 패턴과 전략을 발견 할 수 있습니다 [1] [2] [4]. RL 프로세스 중에 추론을 인센티브로 인센티브함으로써, DeepSeek R1은 일관된 사고 체인을 생성하고 자기 검증 및 반영에 관여 할 수 있으며, 이는 복잡한 문제 해결에 중요합니다 [4].
다단계 교육 프로세스
DeepSeek R1의 훈련은 여러 단계로 나뉩니다.
1. 콜드 스타트 단계 :이 모델은 이전 모델 인 DeepSeek R1-Zero에서 수집 한 소량의 고품질 감독 데이터로 시작합니다. 이 단계는 이전 모델에서 관찰 된 가독성 및 언어 혼합과 같은 문제를 완화하는 데 도움이됩니다 [1] [2].
2. 추론 지향적 RL : 콜드 스타트에 이어 모델은 광범위한 추론 지향적 인 RL 교육을받습니다. 이 단계는 보상 규칙을 사용하여 명확한 솔루션을 정의 할 수있는 코딩, 수학 및 논리와 같은 특정 도메인의 기능을 향상시키는 데 중점을 둡니다 [3] [4].
3. 새로운 데이터를 사용한 미세 조정 : 초기 RL 교육 후 RL 체크 포인트를 기반으로 거부 샘플링을 통해 새로운 감독 데이터가 생성됩니다. 그런 다음이 데이터는 추가 미세 조정에 사용되어 모델이 다양한 작업에서 추론 능력을 개선 할 수 있습니다 [1] [2].
성능 결과
이 엄격한 교육 프로세스의 결과는 OpenAI의 O1-1217과 같은 주요 모델과 비교할 수있는 성능 수준을 달성하는 모델입니다. 예를 들어, DeepSeek R1은 벤치 마크가 크게 개선되었으며, AIME 2024 작업에서 패스 율이 15.6%에서 71%로 증가하여 강화 된 추론 기능을 보여줍니다 [1] [2].
요약하면, DeepSeek R1의 강화 학습 접근 방식은 독립적 인 추론을 장려 할뿐만 아니라 광범위한 감독 데이터 세트에 대한 의존도를 최소화함으로써 문제 해결 효율성을 향상시킵니다. 이것은 큰 언어 모델의 풍경에서 강력한 도구로 자리 잡고 있습니다.
인용 :[1] https://arxiv.org/html/2501.12948v1
[2] https://myedgetech.com/deepseek-r1-tr/
[3] https://www.youtube.com/watch?v=dcqqcllsibu
[4] https://arbisoft.com/blogs/deep-seek-r1-chinese-ai-powhouse-outperforming-ofen-ai-s-a- at-95-95-
[5] https://github.com/deepseek-ai/deepseek-r1/actions
[6] https://www.prompthub.us/blog/deepseek-r-1-model-overview-and-ranks-against-openais-o1
[7] https://arxiv.org/abs/2501.12948
[8] https://www.vellum.ai/blog/the-training-of-deepseek-r1-and-ways-to-wes-it