Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon DeepSeek R1의 강화 학습 접근 방식은 추론 능력을 향상시키는 방법


DeepSeek R1의 강화 학습 접근 방식은 추론 능력을 향상시키는 방법


DeepSeek R1은 전통적인 감독 된 미세 조정 (SFT) 방법에서 나오는 새로운 강화 학습 (RL) 접근법을 통해 추론 능력을 향상시킵니다. 이 혁신적인 전략을 통해 모델은 독립적이고 효율적으로 추론 기술을 개발할 수 있습니다.

강화 학습 프레임 워크

DeepSeek R1은 사전 표지 된 데이터 세트에 의존하지 않고 모델을 시행 착오에서 배울 수있는 규칙 기반 RL 프레임 워크 그룹 상대 정책 최적화 (GRPO)를 사용합니다. 이 접근법을 통해 모델은 방대한 솔루션 공간을 탐색하여 감독 된 교육 데이터에 존재하지 않을 수있는 고유 한 추론 패턴과 전략을 발견 할 수 있습니다 [1] [2] [4]. RL 프로세스 중에 추론을 인센티브로 인센티브함으로써, DeepSeek R1은 일관된 사고 체인을 생성하고 자기 검증 및 반영에 관여 할 수 있으며, 이는 복잡한 문제 해결에 중요합니다 [4].

다단계 교육 프로세스

DeepSeek R1의 훈련은 여러 단계로 나뉩니다.

1. 콜드 스타트 ​​단계 :이 모델은 이전 모델 인 DeepSeek R1-Zero에서 수집 한 소량의 고품질 감독 데이터로 시작합니다. 이 단계는 이전 모델에서 관찰 된 가독성 및 언어 혼합과 같은 문제를 완화하는 데 도움이됩니다 [1] [2].

2. 추론 지향적 RL : 콜드 스타트에 이어 모델은 광범위한 추론 지향적 인 RL 교육을받습니다. 이 단계는 보상 규칙을 사용하여 명확한 솔루션을 정의 할 수있는 코딩, 수학 및 논리와 같은 특정 도메인의 기능을 향상시키는 데 중점을 둡니다 [3] [4].

3. 새로운 데이터를 사용한 미세 조정 : 초기 RL 교육 후 RL 체크 포인트를 기반으로 거부 샘플링을 통해 새로운 감독 데이터가 생성됩니다. 그런 다음이 데이터는 추가 미세 조정에 사용되어 모델이 다양한 작업에서 추론 능력을 개선 할 수 있습니다 [1] [2].

성능 결과

이 엄격한 교육 프로세스의 결과는 OpenAI의 O1-1217과 같은 주요 모델과 비교할 수있는 성능 수준을 달성하는 모델입니다. 예를 들어, DeepSeek R1은 벤치 마크가 크게 개선되었으며, AIME 2024 작업에서 패스 율이 15.6%에서 71%로 증가하여 강화 된 추론 기능을 보여줍니다 [1] [2].

요약하면, DeepSeek R1의 강화 학습 접근 방식은 독립적 인 추론을 장려 할뿐만 아니라 광범위한 감독 데이터 세트에 대한 의존도를 최소화함으로써 문제 해결 효율성을 향상시킵니다. 이것은 큰 언어 모델의 풍경에서 강력한 도구로 자리 잡고 있습니다.

인용 :
[1] https://arxiv.org/html/2501.12948v1
[2] https://myedgetech.com/deepseek-r1-tr/
[3] https://www.youtube.com/watch?v=dcqqcllsibu
[4] https://arbisoft.com/blogs/deep-seek-r1-chinese-ai-powhouse-outperforming-ofen-ai-s-a- at-95-95-
[5] https://github.com/deepseek-ai/deepseek-r1/actions
[6] https://www.prompthub.us/blog/deepseek-r-1-model-overview-and-ranks-against-openais-o1
[7] https://arxiv.org/abs/2501.12948
[8] https://www.vellum.ai/blog/the-training-of-deepseek-r1-and-ways-to-wes-it