Deepseek-R1 menggunakan pendekatan canggih untuk mengelola percakapan multi-turn yang kompleks, menggabungkan pembelajaran penguatan (RL) dengan proses pelatihan terstruktur. Model ini dirancang untuk meningkatkan kemampuan penalaran dan meningkatkan koherensi responsnya atas banyak interaksi.
Proses pelatihan multi-tahap ###
1. Fase Mulai Dingin: Awalnya, Deepseek-R1 disesuaikan dengan menggunakan data berkualitas tinggi, yang membantu membangun fondasi yang kuat untuk kejelasan dan koherensi dalam tanggapannya. Fase ini membahas masalah umum seperti keterbacaan yang buruk dan output bahasa campuran [1] [3].
2. Pembelajaran Penguatan: Inti dari pelatihan Deepseek-R1 melibatkan RL murni, memungkinkan model untuk belajar melalui coba-coba. Metode ini meningkatkan keterampilan pemecahan masalah dan kemampuan penalaran, membuatnya kurang bergantung pada dataset berlabel yang luas [2] [3].
3. Pengambilan sampel penolakan: Di dekat konvergensi RL, model ini menggunakan pengambilan sampel penolakan untuk menghasilkan data sintetis dengan memilih contoh terbaik dari proses yang berhasil sebelumnya. Langkah ini meningkatkan keragaman dan kualitas data pelatihan, lebih lanjut menyempurnakan kemampuan model [1].
4. Tahap RL Terakhir: Setelah mengintegrasikan data sintetis dan diawasi di berbagai domain, Deepseek-R1 mengalami fase pembelajaran penguatan akhir yang memastikannya dapat menggeneralisasi secara efektif di berbagai petunjuk dan skenario yang berbeda. Langkah ini sangat penting untuk mempertahankan kinerja dalam aplikasi dunia nyata [1].
Menangani percakapan multi-turn
Arsitektur Deepseek-R1 memungkinkannya untuk mempertahankan konteks di berbagai putaran dalam percakapan. Dengan menambahkan pesan sebelumnya dari pengguna dan asisten, ia dapat melacak sejarah dialog secara efektif. Misalnya, ketika seorang pengguna mengajukan pertanyaan yang diikuti oleh pertanyaan terkait lainnya, Deepseek-R1 dapat merujuk pertukaran sebelumnya untuk memberikan tanggapan yang relevan dan koheren [1] [3].
Wawasan Kinerja
Terlepas dari kekuatannya, versi awal Deepseek-R1 menghadapi tantangan dengan respons berulang dalam percakapan multi-giliran. Namun, peningkatan yang berkelanjutan dalam metodologi pelatihannya telah secara signifikan meningkatkan kemampuannya untuk menangani dialog kompleks tanpa kehilangan konteks atau koherensi [3] [4].
Singkatnya, proses pelatihan multi-tahap Deepseek-R1 dan kerangka pembelajaran penguatan memungkinkannya untuk secara efektif mengelola percakapan multi-turn yang kompleks dengan membangun fondasi data berkualitas yang kuat dan memperbaiki kemampuan penalarannya melalui pembelajaran berulang.
Kutipan:[1] https://www.vellum.ai/blog/the-training-of-deepseek-r1-and-ways-to-use-it
[2] https://arxiv.org/html/2501.12948v1
[3] https://felloai.com/2025/01/deepseek-r1-the-open-source-ai-thats-beating-google-and-openai/
[4] https://www.reddit.com/r/localllama/comments/1i7fjqm/deepseek_r1_is_unusable_imho/
[5] https://www.datacamp.com/blog/deepseek-r1
[6] https://github.com/deepseek-ai/deepseek-r1/blob/main/readme.md
[7] https://api-docs.deepseek.com/guides/multi_round_chat
[8] https://www.linkedin.com/pulse/deepseek-revolutionizing-ai-open-source-cheasoning-20-ramachandran-xakme