Deepseek-R1: Mengatasi pencampuran bahasa melalui pembelajaran penguatan dan penyesuaian yang diawasi

Bagaimana deepseek-r1 menangani masalah pencampuran bahasa

Deepseek-R1 membahas masalah pencampuran bahasa melalui proses pelatihan multi-tahap yang menggabungkan pembelajaran penguatan (RL) dengan fine-tuning yang diawasi (SFT). Awalnya, model dimulai dengan versi dasar (Deepseek-V3-base) yang disesuaikan dengan menggunakan sekumpulan kecil data "cold-start", yang membantu membangun fondasi terstruktur untuk memahami beragam bahasa dan konteks [1] [2 ].

Model ini kemudian menggunakan teknik RL murni untuk meningkatkan kemampuan penalarannya. Namun, selama pelatihan, diamati bahwa pencampuran bahasa dapat terjadi, terutama ketika menangani pertanyaan dalam bahasa selain bahasa Inggris atau Cina. Misalnya, Deepseek-R1 mungkin default ke bahasa Inggris untuk penalaran dan tanggapan bahkan jika inputnya dalam bahasa lain [5] [6]. Untuk mengurangi ini, model ini menggunakan pengambilan sampel penolakan untuk menghasilkan data pelatihan sintetis dari RL Run yang berhasil, yang kemudian digabungkan dengan data yang diawasi berkualitas tinggi dari berbagai domain. Proses ini membantu meningkatkan kemampuan beradaptasi model terhadap berbagai bahasa dan mengurangi kemungkinan pencampuran bahasa dalam tanggapan [1] [4].

Selain itu, penelitian yang sedang berlangsung bertujuan untuk mengoptimalkan Deepseek-R1 untuk kinerja yang lebih baik di berbagai bahasa yang lebih luas sambil mengatasi keterbatasan saat ini dalam menangani input bahasa campuran secara efektif. Pembaruan di masa depan diharapkan untuk memperbaiki kemampuannya di bidang ini, meningkatkan respons dan akurasinya ketika berinteraksi dengan pengguna dalam konteks linguistik yang beragam [2] [5].

Kutipan:
[1] https://www.vellum.ai/blog/the-training-of-deepseek-r1-and-ways-to-use-it
[2] https://adasci.org/mastering-llms-reasoning-capability-with-deepseek-r1/
[3] https://www.reddit.com/r/localllama/comments/1iagr6u/how_do_i_finetune_deepseek_r1_on_a_new_language/
[4] https://unfoldai.com/deepseek-r1/
[5] https://arxiv.org/html/2501.12948v1
[6] https://github.com/deepseek-ai/deepseek-r1/blob/main/readme.md
[7] https://github.com/deepseek-ai/deepseek-r1/activity
[8] https://arxiv.org/html/2501.17030v1