Perbandingan Data Pelatihan Deepseek-R1 dan Llama 3.1

Apa perbedaan utama dalam data pelatihan yang digunakan untuk Deepseek-R1 dan Llama 3.1

Data pelatihan untuk Deepseek-R1 dan LLAMA 3.1 menunjukkan beberapa perbedaan utama, yang mencerminkan pendekatan yang berbeda untuk pengembangan model.
Data Pelatihan

Deepseek-R1

Deepseek-R1 dilatih menggunakan proses multi-tahap yang menggabungkan pembelajaran penguatan (RL) dengan fine-tuning yang diawasi (SFT). Model dimulai dengan fase "awal dingin", di mana ia disesuaikan dengan serangkaian kecil contoh yang dibuat dengan cermat untuk meningkatkan kejelasan dan keterbacaan. Ini diikuti oleh RL murni untuk meningkatkan keterampilan penalaran, mirip dengan R1-Zero. Dekat RL Convergence, model menggunakan pengambilan sampel penolakan untuk membuat data sintetis dengan memilih contoh terbaik dari RL Run sebelumnya. Data sintetis ini kemudian digabungkan dengan data yang diawasi dari domain Deepseek-V3 dalam domain seperti menulis, QA faktual, dan kognisi diri. Tahap terakhir melibatkan putaran RL lain di berbagai petunjuk dan skenario untuk lebih menggeneralisasi kemampuan model [1] [4].

Llama 3.1 Data Pelatihan

Llama 3.1, di sisi lain, dilatih pada korpus besar sekitar 15 triliun token dari sumber yang tersedia untuk umum, dengan tanggal batas pengetahuan Desember 2023 [8]. Dataset pelatihan mencakup campuran domain umum yang seimbang, data matematika dan penalaran, teks multibahasa, dan kode dari berbagai bahasa pemrograman untuk meningkatkan pembuatan kode dan memahami kemampuan [5]. Model ini mengalami pra-pelatihan awal menggunakan tujuan prediksi berikutnya, diikuti oleh pra-pelatihan konteks panjang untuk menangani dokumen panjang dan tugas penalaran yang kompleks. Campuran data disesuaikan dengan hati-hati untuk meningkatkan kinerja pada tugas-tugas tertentu, seperti meningkatkan data non-Inggris untuk kemampuan multibahasa dan meningkatkan data matematika untuk penalaran yang lebih baik [2] [5].

Perbedaan utama

2. Sumber Data: Deepseek-R1 menggunakan kombinasi data awal dingin awal dan data sintetis yang dihasilkan selama proses RL. Sebaliknya, Llama 3.1 dilatih pada kumpulan besar data yang tersedia untuk umum.

3. Volume dan Kualitas Data: Llama 3.1 dilatih pada dataset yang jauh lebih besar (~ 15 triliun token) dibandingkan dengan dataset awal yang relatif kecil yang digunakan untuk Deepseek-R1. Namun, penggunaan data sintetis Deepseek-R1 memungkinkannya untuk mencapai kinerja tinggi dalam tugas penalaran meskipun dataset awal yang lebih kecil.

4. Area Fokus: Kedua model fokus pada peningkatan penalaran dan kemampuan pengetahuan, tetapi Deepseek-R1 memberikan penekanan kuat pada penalaran melalui RL, sementara Llama 3.1 juga berfokus pada kemampuan multibahasa dan pengkodean.

Secara keseluruhan, data pelatihan untuk Deepseek-R1 dan LLAMA 3.1 mencerminkan berbagai strategi dalam pengembangan model, dengan Deepseek-R1 memanfaatkan RL dan data sintetis untuk mencapai kemampuan penalaran yang kuat dan LLAMA 3.1 mengandalkan pendekatan pembelajaran yang diawasi berskala besar untuk mencakup berbagai tugas.

Kutipan:
[1] https://www.vellum.ai/blog/the-training-of-deepseek-r1-and-ways-to-use-it
[2] https://www.linkedin.com/pulse/dissecting-llama-31-deep-dive-benedict-smith-agi6f
[3] https://docsbot.ai/models/compare/deepseek-r1/llama-3-1-8b-instruct
[4] https://huggingface.co/blog/open-r1
[5] https://kili-technology.com/large-language-models-llms/llama-3-1-guide-what-to-now-about-meta-snew-405b-model-and-ss-data
[6] https://docsbot.ai/models/compare/deepseek-r1/llama-3-1-405b-instruct
[7] https://www.datacamp.com/tutorial/fine-tuning-deepseek-r1-roasoning-model
[8] https://huggingface.co/meta-llama/llama-3.1-8b-instruct
[9] https://www.prompthub.us/blog/deepseek-r-1-model-oveview-and-how-it-ranks-against-openais-o1