DeepSeek-R1 및 LLAMA 3.1에 대한 교육 데이터는 모델 개발에 대한 뚜렷한 접근법을 반영하여 몇 가지 주요 차이점을 보여줍니다.
DeepSeek-R1 교육 데이터
DeepSeek-R1은 강화 학습 (RL)과 감독 된 미세 조정 (SFT)을 결합한 다단계 프로세스를 사용하여 교육을받습니다. 이 모델은 "콜드 스타트"단계로 시작하여 명확성과 가독성을 향상시키기 위해 신중하게 제작 된 작은 예제에 미세 조정됩니다. R1-Zero와 유사한 추론 기술을 향상시키기 위해 Pure RL이 뒤 따릅니다. RL 수렴 근처 에서이 모델은 거부 샘플링을 사용하여 이전 RL 실행에서 가장 좋은 예를 선택하여 합성 데이터를 만듭니다. 그런 다음이 합성 데이터는 쓰기, 사실 QA 및 자기 인식과 같은 도메인의 DeepSeek-V3-Base의 감독 데이터와 병합됩니다. 마지막 단계는 모델의 기능을 더욱 일반화하기 위해 다양한 프롬프트와 시나리오에 걸쳐 또 다른 RL 라운드를 포함합니다 [1] [4].
llama 3.1 교육 데이터
반면에 Llama 3.1은 2023 년 12 월의 지식 차단 날짜와 함께 공개적으로 이용 가능한 소스에서 약 15 조의 토큰의 거대한 코퍼스에 대해 훈련을 받았습니다 [8]. 교육 데이터 세트에는 일반 도메인, 수학 및 추론 데이터, 다국어 텍스트 및 다양한 프로그래밍 언어의 코드가 코드 생성 및 이해 기능을 향상시키기 위해 코드의 균형 잡힌 혼합이 포함되어 있습니다 [5]. 이 모델은 다음 번의 예측 목표를 사용하여 초기 사전 훈련을 받고 긴 문서와 복잡한 추론 작업을 처리하기 위해 장기 텍스트 사전 훈련이 이어집니다. 데이터 믹스는 다국어 기능에 대한 영어가 아닌 데이터를 증가시키고 더 나은 추론을 위해 수학적 데이터를 상향 샘플링하는 등 특정 작업의 성능을 향상시키기 위해 신중하게 조정됩니다 [2] [5].
주요 차이점
1. 교육 접근법 : DeepSeek-R1은 강화 학습 및 합성 데이터 생성에 크게 의존하는 반면 LLAMA 3.1은 대규모 사전 훈련 데이터 세트와 함께보다 전통적인 감독 학습 방식을 사용합니다.
2. 데이터 소스 : DeepSeek-R1은 RL 프로세스 중에 생성 된 초기 콜드 스타트 데이터와 합성 데이터의 조합을 사용합니다. 대조적으로, LLAMA 3.1은 공개적으로 이용 가능한 대규모 코퍼스에 대해 교육을 받았습니다.
3. 데이터 볼륨 및 품질 : LLAMA 3.1은 DeepSeek-R1에 사용되는 비교적 작은 초기 데이터 세트와 비교하여 훨씬 더 큰 데이터 세트 (~ 15 조 토큰)에서 교육을 받았습니다. 그러나 DeepSeek-R1의 합성 데이터를 사용하면 초기 데이터 세트가 작음에도 불구하고 추론 작업에서 고성능을 달성 할 수 있습니다.
4. 초점 영역 : 두 모델 모두 추론 및 지식 기능 향상에 중점을 두지 만 DeepSeek-R1은 RL을 통한 추론에 중점을두고 있으며 LLAMA 3.1은 다국어 및 코딩 기능에 중점을 둡니다.
전반적으로, DeepSeek-R1 및 LLAMA 3.1에 대한 교육 데이터는 모델 개발에서 다양한 전략을 반영하며 DeepSeek-R1은 강력한 추론 기능을 달성하기 위해 RL 및 합성 데이터를 활용하고 LLAMA 3.1은 광범위한 작업을 다루기위한 대규모 감독 학습 접근법에 의존합니다.
인용 :
[1] https://www.vellum.ai/blog/the-training-of-deepseek-r1-and-ways-to-use-it
[2] https://www.linkedin.com/pulse/dissecting-llama-31-deep-dive-benedict-smith-agi6f
[3] https://docsbot.ai/models/compare/deepseek-r1/llama-3-1-8b-instruct
[4] https://huggingface.co/blog/open-r1
[5] https://kili-technology.com/large-language-models-llms/llama-3-1-guide-what-to- know-boub-com-meta-new--model-and-its-data
[6] https://docsbot.ai/models/compare/deepseek-r1/llama-3-1-405b-instruct
[7] https://www.datacamp.com/tutorial/fine-tuning-deepseek-r1-rouseing-model
[8] https://huggingface.co/meta-llama/llama-3.1-8b-instruct
[9] https://www.prompthub.us/blog/deepseek-r-1-model-overview-and-ranks-against-openais-o1