Deepseek-R1 ve Lama 3.1 eğitim verilerinin karşılaştırılması

Deepseek-R1 ve Lama 3.1 için kullanılan eğitim verilerindeki temel farklılıklar nelerdir?

Deepseek-R1 ve Llama 3.1 için eğitim verileri, model gelişimine farklı yaklaşımları yansıtan birkaç temel farklılık sergilemektedir.

Deepseek-R1 Eğitim Verileri

Deepseek-R1, takviye öğrenimi (RL) denetimli ince ayar (SFT) ile birleştiren çok aşamalı bir işlem kullanılarak eğitilmiştir. Model, netliği ve okunabilirliği artırmak için dikkatlice hazırlanmış küçük bir dizi örnekte ince ayar yapıldığı "soğuk başlangıç" aşamasıyla başlar. Bunu, R1-Zero'ya benzer şekilde akıl yürütme becerilerini geliştirmek için saf RL izler. RL yakınsama yakınında, model, önceki RL çalışmalarından en iyi örnekleri seçerek sentetik veriler oluşturmak için ret örneklemesini kullanır. Bu sentetik veriler daha sonra yazma, gerçek KG ve kendini tanıma gibi alanlarda Deepseek-V3-bazdan denetimli verilerle birleştirilir. Son aşama, modelin yeteneklerini daha da genelleştirmek için çeşitli istemler ve senaryolar arasında başka bir RL turu içerir [1] [4].

Lama 3.1 Eğitim Verileri

Öte yandan Llama 3.1, Aralık 2023 tarihli bir bilgi kesme tarihi ile halka açık kaynaklardan yaklaşık 15 trilyon jetonun büyük bir cesedi üzerinde eğitilmiştir [8]. Eğitim veri kümesi, kod üretimini ve anlayış yeteneklerini geliştirmek için genel alanların, matematiksel ve akıl yürütme verilerinin, çok dilli metinlerin ve çeşitli programlama dillerinden kodların dengeli bir karışımını içerir [5]. Model, bir sonraki eğik tahmin hedefi kullanılarak ilk öncü eğitimden geçer, ardından uzun belgeleri ve karmaşık akıl yürütme görevlerini yerine getirmek için uzun bağlam öncesi eğitim izler. Veri karışımı, çok dilli yetenekler için İngilizce olmayan verilerin arttırılması ve daha iyi akıl yürütme için yukarı örnekleme matematiksel verilerinin artması gibi belirli görevlerdeki performansı artırmak için dikkatle ayarlanmıştır [2] [5].

Anahtar Farklılıklar

1. Eğitim Yaklaşımı: Deepseek-R1 büyük ölçüde takviye öğrenme ve sentetik veri üretimine güvenirken, Lama 3.1, antrenman öncesi büyük bir veri kümesiyle daha geleneksel denetimli bir öğrenme yaklaşımı kullanır.

2. Veri Kaynakları: Deepseek-R1, RL işlemi sırasında oluşturulan ilk soğuk start verilerinin ve sentetik verilerin bir kombinasyonunu kullanır. Buna karşılık, Llama 3.1, halka açık verilerin büyük bir kısmı üzerinde eğitilmiştir.

3. Veri hacmi ve kalitesi: Llama 3.1, Deepseek-R1 için kullanılan nispeten küçük başlangıç veri kümesine kıyasla çok daha büyük bir veri kümesinde (~ 15 trilyon jeton) eğitilmiştir. Bununla birlikte, Deepseek-R1'in sentetik veri kullanımı, daha küçük başlangıç veri kümesine rağmen akıl yürütme görevlerinde yüksek performans elde etmesini sağlar.

4. Odak alanları: Her iki model de akıl yürütme ve bilgi yeteneklerini geliştirmeye odaklanır, ancak Deepseek-R1, RL aracılığıyla muhakemeye güçlü bir vurgu yapmaktadır, Llama 3.1 de çok dilli ve kodlama özelliklerine odaklanmaktadır.

Genel olarak, Deepseek-R1 ve Llama 3.1 için eğitim verileri, model gelişimindeki farklı stratejileri yansıtmaktadır, Deepseek-R1, güçlü akıl yürütme yeteneklerine ve Lama 3.1'e ulaşmak için RL ve sentetik verilerden yararlanmaktadır.

Alıntılar:
[1] https://www.vellum.ai/blog/the-fainta-feepseek-r1-and-to-to-use-it
[2] https://www.linkedin.com/pulse/deissecting-llama-31-dep-dive-bedict-smith-agi6f
[3] https://docsbot.ai/models/compare/deepseek-r1/llama-3-1-8b-
[4] https://huggingface.co/blog/open-r1
[5] https://kili-technology.com/large-language-models-llms/llama-3-1-giide-what-now-now-about-meta-s-new-405b-model-and-itt-data
[6] https://docsbot.ai/models/compare/deepseek-r1/llama-3-1-405b-
[7] https://www.datacamp.com/tutorial/fine-tuning-deepseek-r1-weasoning-model
[8] https://huggingface.co/meta-llama/llama-3.1-8b-
[9] https://www.prompthub.us/blog/deepseek-1-model-overview-and-how-it-ragainst-openais-o1