Ukuran batch yang lebih kecil dapat secara signifikan memengaruhi efisiensi model Deepseek, terutama dalam hal dinamika pelatihan dan kinerja model. Berikut adalah pertimbangan utama:
Dampak pada dinamika pelatihan
1. Noise Gradient: Ukuran batch yang lebih kecil memperkenalkan lebih banyak kebisingan ke dalam perkiraan gradien selama pelatihan. Ini dapat bermanfaat karena memungkinkan model untuk menghindari minimum lokal, yang berpotensi mengarah ke generalisasi yang lebih baik pada data yang tidak terlihat. Namun, ukuran batch yang terlalu kecil dapat menyebabkan kebisingan yang berlebihan, menghambat konvergensi [2] [4].
2. Perbarui Frekuensi: Batch yang lebih kecil menyebabkan pembaruan yang lebih sering dari bobot model. Ini dapat mempercepat proses pembelajaran, karena model dapat menyesuaikan lebih sering berdasarkan data yang masuk. Sebaliknya, batch yang lebih besar mengurangi jumlah pembaruan per zaman, yang mungkin memperlambat kecepatan belajar secara keseluruhan meskipun berpotensi memberikan perkiraan gradien yang lebih stabil [4] [6].
3. Efisiensi memori: Menggunakan ukuran batch yang lebih kecil membutuhkan lebih sedikit memori, yang dapat menjadi sangat penting untuk melatih model besar seperti Deepseek-V2 yang memiliki jumlah parameter yang luas (236 miliar parameter) dan memerlukan manajemen sumber daya yang efisien [1] [3].
Kinerja model ##
1. Kecepatan konvergensi: Meskipun ukuran batch yang lebih kecil dapat menyebabkan konvergensi yang lebih cepat dalam beberapa kasus, ini tidak dijamin secara universal. Ukuran batch yang optimal seringkali tergantung pada berbagai faktor seperti arsitektur model, sifat data, dan tujuan pelatihan khusus [2] [4].
2. Kemampuan Generalisasi: Batch yang lebih kecil dapat meningkatkan kemampuan model untuk menggeneralisasi dengan mencegah overfitting, yang merupakan risiko yang terkait dengan ukuran batch yang lebih besar yang mungkin mengarah pada menghafal data pelatihan daripada mempelajari pola yang mendasari [4] [6].
3. Biaya Pelatihan: Model Deepseek-V2 menunjukkan bahwa menggunakan jumlah parameter yang diaktifkan lebih kecil (21 miliar dari 236 miliar) masih dapat menghasilkan kinerja tingkat atas sementara secara signifikan mengurangi biaya pelatihan sebesar 42,5% dan meningkatkan throughput sebesar 5,76 kali dibandingkan dengan pendahulunya [1] [3]. Ini menunjukkan bahwa mengoptimalkan ukuran batch bersamaan dengan aktivasi parameter dapat menghasilkan keuntungan efisiensi yang substansial.
Kesimpulan
Singkatnya, ukuran batch yang lebih kecil dapat meningkatkan efisiensi model Deepseek dengan memfasilitasi pembaruan yang lebih cepat dan meningkatkan kemampuan generalisasi sambil memperhatikan tingkat kebisingan dalam perkiraan gradien. Namun, ukuran batch yang ideal tergantung pada konteks dan harus disetel sesuai dengan skenario pelatihan khusus dan kendala sumber daya.
Kutipan:[1] https://arxiv.org/html/2405.04434v2
[2] https://datascience.stackexchange.com/questions/72922/does-small-batch-size-improve-the-model
[3] https://www.reddit.com/r/localllama/comments/1clkld3/deepseekv2_a_strong_economical_and_eficient/
[4] https://www.lyzr.ai/glosaries/batch-size/
[5] https://planetbanatt.net/articles/deepseek.html
[6] https://stackoverflow.com/questions/35050753/how-big-should-tatch-size-and-number-of-epochs-when-fitting-a-model/38405970
[7] https://huggingface.co/deepseek-ai/deepseek-v2-lite
[8] http://arxiv.org/pdf/2410.21676.pdf