Deepseek-R1-Zero: Kemajuan dan Keterbatasan dalam Penalaran dan Kinerja

Apa keterbatasan utama Deepseek-R1-Zero

Deepseek-R1-Zero, sambil menunjukkan kemajuan yang signifikan dalam kemampuan penalaran melalui pembelajaran penguatan, memiliki beberapa keterbatasan penting:

** Masalah pencampuran dan koherensi bahasa: Salah satu tantangan utama adalah kecenderungan model untuk menghasilkan output yang mencampur bahasa, terutama bahasa Inggris dan Cina. Ini menghasilkan respons yang bisa tidak koheren atau sulit dipahami, terutama ketika kueri input dalam satu bahasa [1] [4].

** Keterbacaan yang buruk: Keterbacaan output model sering dikompromikan. Pengguna telah melaporkan masalah dengan pemformatan dan kejelasan, membuatnya sulit untuk mengikuti proses penalaran atau jawaban akhir yang disediakan oleh model [3] [5].

** Kurangnya penyesuaian yang diawasi: Deepseek-R1-Zero dikembangkan tanpa penyesuaian awal yang diawasi, yang membatasi kemampuannya untuk menghasilkan output yang sepenuhnya dipoles dan selaras manusia. Tidak adanya penyempurnaan ini dapat menyebabkan respons yang kurang dapat diandalkan dibandingkan dengan model yang menggabungkan teknik pembelajaran yang diawasi [1] [3].

** Pengulangan Tanpa Akhir: Model kadang -kadang menunjukkan perilaku berulang dalam tanggapannya, yang dapat mengurangi keseluruhan pengalaman pengguna dan efektivitas komunikasi [5] [7].

** Variabilitas kinerja pada tugas pengkodean: Meskipun Deepseek-R1-Zero menunjukkan kinerja yang kuat dalam tugas penalaran, ia berkinerja buruk pada tantangan pengkodean, menunjukkan bahwa kemampuannya mungkin tidak sekuat semua jenis tugas [1] [2].

Keterbatasan ini telah mendorong upaya pengembangan lebih lanjut, yang mengarah pada penciptaan Deepseek-R1, yang bertujuan untuk mengatasi kekurangan ini dengan memasukkan teknik yang diawasi dan meningkatkan kinerja secara keseluruhan.

Kutipan:
[1] https://www.prompthub.us/blog/deepseek-r-1-model-oveview-and-how-it-ranks-against-openais-o1
[2] https://arxiv.org/html/2501.12948v1
[3] https://www.gocodeo.com/post/deepseek-r1-and-deepseek-r1-zero
[4] https://myedgetech.com/deepseek-r1-tr/
[5] https://huggingface.co/deepseek-ai/deepseek-r1-zero
[6] https://adasci.org/mastering-llms-reasoning-capability-with-deepseek-r1/
[7] https://www.datacamp.com/blog/deepseek-r1
[8] https://arxiv.org/pdf/2501.12948.pdf