Deepseek R1: merevolusi penalaran dengan pembelajaran penguatan

Bagaimana pendekatan pembelajaran penguatan Deepseek R1 meningkatkan kemampuan penalarannya

Deepseek R1 meningkatkan kemampuan penalarannya melalui pendekatan pembelajaran penguatan baru (RL) yang menyimpang dari metode fine-tuning (SFT) yang diawasi tradisional. Strategi inovatif ini memungkinkan model untuk mengembangkan keterampilan penalaran secara mandiri dan efisien.

Kerangka Belajar Penguatan ##

Deepseek R1 menggunakan Optimasi Kebijakan Relatif Grup (GRPO), kerangka kerja RL berbasis aturan yang memungkinkan model untuk belajar dari coba-coba tanpa mengandalkan set data pra-berlabel. Pendekatan ini memungkinkan model untuk mengeksplorasi ruang solusi yang luas, menemukan pola penalaran dan strategi yang unik yang mungkin tidak ada dalam data pelatihan yang diawasi [1] [2] [4]. Dengan memberi insentif pada penalaran selama proses RL, Deepseek R1 dapat menghasilkan rantai pemikiran yang koheren dan terlibat dalam verifikasi dan refleksi diri, yang sangat penting untuk pemecahan masalah yang kompleks [4].

Proses pelatihan multi-tahap#

Pelatihan Deepseek R1 dibagi menjadi beberapa fase:

1. Fase Mulai Dingin: Model dimulai dengan sejumlah kecil data yang diawasi berkualitas tinggi yang dikumpulkan dari pendahulunya, Deepseek R1-Zero. Fase ini membantu mengurangi masalah seperti keterbacaan yang buruk dan pencampuran bahasa yang diamati pada model sebelumnya [1] [2].

2. RL berorientasi penalaran: Mengikuti awal yang dingin, model ini mengalami pelatihan RL yang berorientasi penalaran yang luas. Fase ini berfokus pada peningkatan kemampuan dalam domain spesifik seperti pengkodean, matematika, dan logika, di mana solusi yang jelas dapat didefinisikan menggunakan aturan hadiah [3] [4].

3. Penyesuaian dengan data baru: Setelah pelatihan RL awal, data yang diawasi baru dihasilkan melalui pengambilan sampel penolakan berdasarkan pos pemeriksaan RL. Data ini kemudian digunakan untuk penyempurnaan lebih lanjut, memungkinkan model untuk memperbaiki kemampuan penalaran di berbagai tugas [1] [2].

Hasil kinerja

Hasil dari proses pelatihan yang ketat ini adalah model yang mencapai tingkat kinerja yang sebanding dengan model-model terkemuka seperti O1-1217 Openai tentang tugas penalaran. Sebagai contoh, Deepseek R1 menunjukkan peningkatan yang signifikan dalam tolok ukur, dengan tingkat kelulusan meningkat dari 15,6% menjadi 71% pada tugas AIME 2024, menunjukkan kemampuan penalaran yang ditingkatkan [1] [2].

Singkatnya, pendekatan pembelajaran penguatan Deepseek R1 tidak hanya mendorong penalaran independen tetapi juga meningkatkan efisiensi pemecahan masalah dengan meminimalkan ketergantungan pada kumpulan data yang diawasi secara luas. Ini memposisikannya sebagai alat yang ampuh dalam lanskap model bahasa besar.

Kutipan:
[1] https://arxiv.org/html/2501.12948v1
[2] https://myedgetech.com/deepseek-r1-tr/
[3] https://www.youtube.com/watch?v=dcqqclllsibu
[4] https://arbisoft.com/blogs/deep-seek-r1-the-chinese-ai-powerhouse-outperforming-open-ai-s-o1-at-95-less-cost
[5] https://github.com/deepseek-ai/deepseek-r1/actions
[6] https://www.prompthub.us/blog/deepseek-r-1-model-oveview-and-how-it-ranks-against-openais-o1
[7] https://arxiv.org/abs/2501.12948
[8] https://www.vellum.ai/blog/the-training-of-deepseek-r1-and-ways-to-use-it