Mengoptimalkan Penyebaran Deepseek-R1 di AWS: Rekomendasi Instance dan Panduan Pengaturan

Menjalankan Deepseek-R1 secara efisien pada AWS membutuhkan pemilihan tipe instance yang tepat berdasarkan varian model spesifik dan kinerja yang diinginkan. Berikut gambaran terperinci dari contoh AWS yang disarankan untuk model Deepseek-R1 yang berbeda:

Deepseek-R1 (model lengkap)

Model penuh Deepseek-R1, dengan 671 miliar parameter, membutuhkan sumber daya komputasi yang substansial. Untuk kinerja optimal, pengaturan multi-GPU direkomendasikan, seperti menggunakan NVIDIA A100 GPU. Namun, AWS tidak secara langsung menawarkan A100 GPU dalam contoh EC2 standarnya. Sebaliknya, Anda dapat mempertimbangkan menggunakan contoh seperti `inf2.48xlarge` untuk kebutuhan komputasi kinerja tinggi yang serupa, meskipun ini lebih cocok untuk akselerasi inferensi daripada melatih model besar seperti Deepseek-R1 [4].

Deepseek-R1 Model Distilled

Untuk versi suling Deepseek-R1, yang lebih efisien dan membutuhkan lebih sedikit VRAM, instance AWS yang berbeda dapat digunakan:

-Deepseek-R1-Distill-Qwen-1.5b: Model ini dapat dijalankan secara efisien pada instance GPU tunggal. Contoh `ml.g5.xlarge` direkomendasikan untuk hosting model ini karena metrik kinerjanya [3].

-Deepseek-R1-Distill-Qwen-7b dan Deepseek-R1-Distill-Llama-8B: Model-model ini berkinerja baik pada contoh seperti `ml.g6e.xlarge`, yang menawarkan keseimbangan kekuatan dan biaya GPU yang baik. Instance `ml.g5.2xlarge` dan` ml.g5.xlarge` juga merupakan opsi yang layak [3].

-Deepseek-R1-Distill-Qwen-14b: Untuk model ini, sebuah contoh dengan GPU yang lebih kuat diperlukan. Contoh `g4dn.xlarge`, yang fitur NVIDIA T4 GPU, mungkin tidak cukup karena keterbatasan VRAM -nya. Sebaliknya, pertimbangkan untuk menggunakan instance dengan GPU yang lebih kuat seperti yang ada di keluarga `ml.g6` atau memilih pengaturan khusus dengan GPU kelas atas jika tersedia [1] [2].

-Deepseek-R1-Distill-Qwen-32b dan Deepseek-R1-Distill-Llama-70B: Model yang lebih besar ini membutuhkan GPU yang lebih kuat. Untuk kinerja optimal, contoh dengan GPU kelas atas seperti NVIDIA RTX 4090 direkomendasikan, meskipun GPU spesifik tersebut tidak tersedia secara langsung dalam contoh AWS EC2 standar. Namun, Anda dapat menggunakan instance seperti `inf2.48xlarge` untuk tugas inferensi kinerja tinggi [4] [6].

Penempatan berbasis CPU

Untuk tugas pemrosesan batch di mana latensi bukan merupakan faktor penting, instance berbasis AWS Graviton4 dapat menawarkan solusi yang hemat biaya. Contoh `c8g.16xlarge`, dengan jumlah inti tinggi dan bandwidth memori, cocok untuk menjalankan model seperti Deepseek-R1-Distill-Llama-70B di lingkungan khusus CPU [6].
Solusi

sepenuhnya dikelola

Untuk pengguna yang lebih suka tidak mengelola infrastruktur, Deepseek-R1 juga tersedia sebagai model server tanpa yang dikelola sepenuhnya di Amazon Bedrock. Opsi ini memungkinkan Anda untuk memanfaatkan kemampuan model tanpa khawatir tentang kompleksitas infrastruktur yang mendasari [9].

Singkatnya, pilihan contoh AWS untuk menjalankan Deepseek-R1 secara efisien tergantung pada varian model spesifik, tingkat kinerja yang diperlukan, dan apakah akselerasi GPU diperlukan. Untuk sebagian besar model suling, contoh dengan GPU yang kuat direkomendasikan, sedangkan instance berbasis CPU dapat cocok untuk tugas pemrosesan batch.

Kutipan:
[1] https://community.aws/content/2seuhqlpyifswckzmx585jcksgn/deploying-deepseek-r1-14b-on-amazon-ec2?lang=en
[2] https://dev.to/askyt/deepseek-r1-architecture-training-local-deployment-and-hardware-requirements-3mf8
[3.
[4] https://huggingface.co/blog/deepseek-r1-aws
[5] https://dev.to/askyt/deepseek-r1-671b-complete-hardware-requirements-optimal-deployment-setup-2e48
[6] https://community.aws/content/2rhrji6cxba1ib5f3tjsfpadpxs/deploying-deepseek-r1-distill-llama-70b-for-catcer-on-aws-graviton4?Lang=en
[7] https://aws.amazon.com/blogs/machine-learning/deploy-deepseek-r1-distilled-models-on-amazon-sagemaker-using-a-grarge-model-fontainer/
[8] https://www.reddit.com/r/localllm/comments/1i6j3ih/how_to_install_deepseek_what_models_and/
[9] https://aws.amazon.com/blogs/aws/deepseek-r1-now-available-as-a-fly-managed-serverless-model-in-amazon-bedrock/

Apakah ada contoh AWS yang disarankan untuk menjalankan Deepseek-R1 secara efisien

Deepseek-R1 (model lengkap)

Deepseek-R1 Model Distilled

Penempatan berbasis CPU

sepenuhnya dikelola