Optimalisasi Kebijakan Relatif Grup (GRPO) di Deepseek R1: Meningkatkan Penalaran AI

Peran apa yang dimainkan algoritma Optimasi Kebijakan Relatif Grup (GRPO) dalam pelatihan Deepseek R1

Algoritma Optimasi Kebijakan Relatif (GRPO) Grup memainkan peran penting dalam pelatihan Deepseek R1, meningkatkan kemampuan penalarannya melalui pendekatan pembelajaran penguatan ramping (RL).

Gambaran Umum GRPO

GRPO adalah algoritma pembelajaran penguatan baru yang memodifikasi metode tradisional seperti Prokimal Kebijakan Optimalisasi (PPO) dengan menghilangkan kebutuhan akan model fungsi nilai yang terpisah, yang menyederhanakan proses pelatihan dan mengurangi penggunaan memori. Alih -alih mengandalkan model kritik untuk mengevaluasi output, GRPO menggunakan perbandingan statistik antara beberapa output yang dihasilkan untuk menilai kinerja relatif terhadap rata -rata kelompok [1] [3]. Metode ini memungkinkan model untuk belajar lebih efisien dengan berfokus pada keunggulan berbasis kelompok daripada evaluasi output individu.

Proses Pelatihan

Di Deepseek R1

Dalam konteks Deepseek R1, GRPO memfasilitasi pembelajaran penguatan skala besar tanpa perlu menyempurnakan yang diawasi. Model ini menghasilkan beberapa solusi kandidat untuk setiap prompt dan menghitung imbalan berdasarkan keakuratan dan kepatuhannya terhadap format yang ditentukan. Sistem hadiah berbasis aturan ini memastikan bahwa proses pelatihan ini hemat sumber daya dan terukur [2] [4]. Tidak adanya data yang diawasi memungkinkan Deepseek R1 untuk secara mandiri mengembangkan kemampuan penalaran melalui interaksi dengan lingkungannya, yang mengarah pada perilaku penyelesaian masalah yang inovatif [6] [7].

Keuntungan utama GRPO di Deepseek R1

- Penghapusan model kritik: Dengan menghapus kritik, GRPO mengurangi biaya komputasi dan kompleksitas yang terkait dengan pemeliharaan dua jaringan saraf yang terpisah (aktor dan kritikus), yang khas dalam pengaturan RL tradisional [3] [9].
- Perhitungan Hadiah Berbasis Grup: Algoritma menggunakan kinerja rata-rata kelompok output sebagai garis dasar untuk menghitung keuntungan, menyelaraskan lebih baik dengan sifat pelatihan model hadiah yang sering melibatkan banyak output untuk input tunggal [1] [5].
- Peningkatan efisiensi: Proses yang ramping tidak hanya meningkatkan efisiensi belajar tetapi juga memungkinkan Deepseek R1 untuk mencapai kinerja yang sebanding dengan model yang lebih besar sementara secara signifikan lebih murah untuk melatih dan beroperasi [2] [6].

Singkatnya, GRPO merupakan bagian integral dari pelatihan Deepseek R1, memungkinkannya untuk secara efektif mempelajari keterampilan penalaran melalui kerangka pembelajaran penguatan yang lebih efisien dan dapat diskalakan. Inovasi ini memposisikan Deepseek R1 sebagai model kompetitif dalam tugas penalaran yang kompleks, menyaingi sistem AI yang mapan sambil mempromosikan aksesibilitas dalam pengembangan AI.

Kutipan:
[1] https://www.philschmid.de/deepseek-r1
[2] https://composio.dev/blog/notes-on-the-new-deepseek-r1/
[3] https://dev.to/aws/takeaways-from-the-deepseek-r1-model-2dli
[4] https://myedgetech.com/deepseek-r1-tr/
[5] https://aipapersacademy.com/deepseek-r1/
[6] https://www.linkedin.com/pulse/deepseek-revolutionizing-ai-open-source-cheasoning-20-ramachandran-xakme
[7] https://arxiv.org/html/2501.12948v1
[8] https://arxiv.org/pdf/2402.03300.pdf
[9] https://dev.to/sayed_ali_alkamel/deepseek-r1-the-open-source-ai-thats-making-waves-on-a-budget-13ik