Parameter suhu di Deepseek R1 terutama digunakan untuk mengontrol keacakan output model. Ini mempengaruhi bagaimana model memilih kata atau token selama generasi, dengan suhu yang lebih tinggi yang mengarah ke output yang lebih beragam tetapi berpotensi kurang koheren, dan suhu yang lebih rendah yang menghasilkan output yang lebih dapat diprediksi dan koheren. Untuk Deepseek R1, kisaran suhu 0,5 hingga 0,7 direkomendasikan, dengan 0,6 menjadi ideal, untuk mencegah output berulang atau tidak koheren [1] [3] [8].
Mekanisme gating dalam arsitektur campuran para ahli (MOE) Deepseek R1 adalah komponen terpisah yang secara dinamis memilih para ahli mana (atau himpunan bagian parameter) untuk diaktifkan berdasarkan input. Mekanisme ini memastikan bahwa hanya sebagian kecil dari parameter total yang digunakan selama inferensi, meningkatkan efisiensi dan kemampuan beradaptasi. Secara khusus, Deepseek R1 mengaktifkan sekitar 37 miliar parameter dari total 671 miliar parameter [4] [9].
Sementara parameter suhu dan mekanisme gating memiliki tujuan yang berbeda, keduanya berkontribusi pada kinerja dan efisiensi model model. Parameter suhu mempengaruhi proses pembuatan output dengan mengendalikan tingkat keacakan, sedangkan mekanisme gating mengoptimalkan penggunaan sumber daya dengan secara selektif mengaktifkan para ahli yang relevan. Namun, tidak ada interaksi langsung antara kedua mekanisme ini; Mereka beroperasi secara mandiri dalam arsitektur model.
Dalam praktiknya, menyesuaikan suhu dapat mempengaruhi bagaimana model menghasilkan teks, tetapi tidak secara langsung mempengaruhi para ahli mana yang diaktifkan oleh mekanisme gating. Mekanisme gating terutama berkaitan dengan memilih subset parameter yang sesuai berdasarkan input, terlepas dari pengaturan suhu. Pemisahan ini memungkinkan kontrol fleksibel atas koherensi output model dan efisiensi komputasi.
Kutipan:
[1] https://build.nvidia.com/deepseek-ai/deepseek-r1/modelcard
[2] https://www.vellum.ai/blog/the-training-of-deepseek-r1-and-ways-to-use-it
[3] https://www.reddit.com/r/localllama/comments/1i81ev6/deepseek_added_recommandations_for_r1_local_use/
[4] https://writesonic.com/blog/what-is-deepseek-r1
[5] https://www.reddit.com/r/localllama/comments/1ip73bq/deepseek_drops_recommended_r1_deployment_settings/
[6] https://arxiv.org/html/2412.19437v1
[7] https://api-docs.deepseek.com/quick_start/parameter_settings
[8] https://docs.together.ai/docs/deepseek-r1
[9] https://merlio.app/blog/deepseek-r1-complete-guide