Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon 포뮬러 생성에 대해 깊은 특정 기계 학습 알고리즘


포뮬러 생성에 대해 깊은 특정 기계 학습 알고리즘


DeepSeek은 특히 DeepSeek R1과 같은 모델에서 공식 생성 및 수학적 추론을위한 다양한 고급 머신 러닝 알고리즘을 사용합니다. 다음은 사용 된 특정 기술에 대한 자세한 개요입니다.

1. COT (Cain-of-Thought) 프롬프트 : Deepseek R1은 수학적 추론을 향상시키기 위해 긴 생각의 사슬을 활용합니다. 여기에는 인간이 복잡한 문제를 해결하는 방식과 유사하게 단계별 추론 프로세스를 통해 모델을 안내하는 방식으로 프롬프트를 구조화하는 것이 포함됩니다 [2]. 이러한 COT 프롬프트를 기반으로 합성 훈련 데이터를 생성함으로써 DeepSeek R1은 더 큰 모델보다 수학적 문제를보다 효과적으로 해결하는 능력을 향상시킬 수 있습니다.

2. 콜드 스타트 ​​미세 조정 : 초기에, DeepSeek R1은 단계별 추론을 특징으로하는 소형 데이터 세트를 사용하여 콜드 스타트 ​​미세 조정을 겪습니다. 이 초기 단계는 모델의 추론 능력에 대한 견고한 토대를 설정합니다 [6] [8]. 콜드 스타트 ​​데이터를 사용하면 문제 해결에 대한 체계적인 접근 방식을 확립하는 데 도움이됩니다.

3. 강화 학습 (RL) : 초기 미세 조정에 따라 DeepSeek R1은 순수한 강화 학습을 사용하여 추론 기술을 향상시킵니다. 이 과정에는 수학적 문제에 대한 단계별 솔루션을 제공하는 것과 같은 원하는 동작에 대한 모델을 모으기 위해 샘플 답변을 자동으로 스코어링하는 것이 포함됩니다 [7] [8]. RL은 라벨이 붙은 데이터에 의존하지 않고 모델의 추론 능력을 개발하는 데 중요합니다.

4. 거부 샘플링 및 감독 된 미세 조정 : RL 프로세스의 거의 수렴, DeepSeek R1은 거부 샘플링을 사용하여 합성 데이터를 생성합니다. 이 합성 데이터는 모델의 지식과 정확성을 추가로 개선하기 위해 다양한 영역의 감독 된 데이터와 병합됩니다 [8]. 이 단계는 모델이 고품질 출력과 다양한 도메인 별 지식에서 학습 할 수 있도록합니다.

5. 그룹 상대 정책 최적화 (GRPO) : DeepSeek은 강화 학습을보다 효율적으로 만들기 위해 설계된 새로운 알고리즘 인 GRPO를 개발했습니다. GRPO는 교육 프로세스를 최적화하는 데 사용되며 모델이 여러 벤치 마크에서 잘 수행 될 수 있습니다 [7]. GRPO는 공식 생성에 대해 구체적으로 상세하지 않지만 DeepSeek의 교육 프로세스의 전반적인 효율성에 기여합니다.

6. 다단계 교육 프로세스 : DeepSeek R1이 채택한 다단계 교육 접근법은 미세 조정 및 강화 학습의 다양한 단계를 반복하는 것을 포함합니다. 각 단계는 이전 단계를 기반으로하여 모델이 가독성과 일관성을 유지하면서 강력한 추론 기능을 개발하도록합니다 [6] [8]. 이 구조화 된 접근 방식은 수학적 추론 작업에서 고성능을 달성하는 데 핵심입니다.

요약하면 DeepSeek의 공식 생성 기능은 고급 NLP 기술, 강화 학습 전략 및 GRPO와 같은 혁신적인 알고리즘의 조합으로 지원됩니다. 이러한 방법을 사용하면 DeepSeek 모델이 수학적 추론 및 문제 해결 작업에서 뛰어납니다.

인용 :
[1] https://kalm.works/en/contents/technology/what-is-deepseek-differences-from-chatgpt-and-usecases
[2] https://www.youtube.com/watch?v=pabqg33surg
[3] https://planetbanatt.net/articles/deepseek.html
[4] https://martinfowler.com/articles/deepseek-papers.html
[5] https://www.inferless.com/learn/the-ultimate-guide-to-deepseek-models
[6] https://www.reddit.com/r/singularity/comments/1i9lkbh/deepseekr1_how_did_they_make_an_openailevel/
[7] https://www.technologyreview.com/2025/01/31/1110740/how-deepseek-ripped-the-ai-playbook-and-why-evyones-going-to-follow-it/
[8] https://www.vellum.ai/blog/the-training-of-deepseek-r1-and-ways-to-wes-it