Mengoptimalkan kinerja Deepseek-R1 pada AWS menggunakan instance GPU melibatkan beberapa strategi utama:
1. Memilih instance GPU yang tepat **
Untuk kinerja optimal dengan Deepseek-R1, sangat penting untuk memilih tipe instance berbasis GPU yang menyediakan memori dan daya komputasi yang cukup. Contoh ML.P5E.48XLARGE sangat disarankan karena dilengkapi dengan 8 NVIDIA H200 GPU, menawarkan memori GPU 1128 GB, yang sangat penting untuk menangani model besar seperti Deepseek-R1 [9]. Contoh lain seperti ML.G6E.12XLarge dan ML.G6E.48XLarge juga telah menunjukkan kinerja yang sangat baik untuk berbagai model suling Deepseek-R1 [1].2. Model sharding di seluruh GPU **
Saat menggunakan instance dengan beberapa GPU, sharding model di semua GPU yang tersedia dapat secara signifikan meningkatkan kinerja. Hal ini memungkinkan model untuk didistribusikan dan diproses secara paralel, meningkatkan throughput dan mengurangi latensi [1].3. Mengoptimalkan konfigurasi model **
Menggunakan wadah Model Inference (LMI) yang besar dengan parameter yang dioptimalkan dapat membantu dalam mencapai kinerja yang lebih baik. Misalnya, mengatur `max_model_len` ke nilai yang sesuai dapat memastikan penanganan urutan input panjang yang efisien tanpa caching chunking atau awalan [1].4. Ukuran konkurensi dan batch **
Meningkatkan konkurensi dan menggunakan ukuran batch yang lebih besar dapat meningkatkan throughput, terutama dalam skenario inferensi real-time. Namun, penting untuk menyeimbangkan konkurensi dengan sumber daya yang tersedia untuk menghindari kelebihan instance [1].5. Optimalisasi Perangkat Lunak **
Memanfaatkan optimisasi perangkat lunak yang tersedia dalam kerangka kerja seperti NVIDIA NIM selanjutnya dapat meningkatkan kinerja. Optimalisasi ini dapat menyederhanakan penyebaran dan memastikan efisiensi tinggi dalam sistem AI agen [4].6. Pemantauan dan Pengujian **
Selalu lakukan pengujian menyeluruh dengan dataset spesifik Anda dan pola lalu lintas untuk mengidentifikasi konfigurasi optimal untuk kasus penggunaan Anda. Ini termasuk mengevaluasi latensi ujung ke ujung, throughput, waktu ke token pertama, dan latensi antar-token [1].7. Efisiensi Biaya **
Saat berfokus pada kinerja, pertimbangkan efisiensi biaya dengan memanfaatkan rencana tabungan atau instance spot untuk tugas-tugas non-real-time. Ini dapat membantu menyeimbangkan kebutuhan kinerja dengan kendala anggaran [3].Dengan menerapkan strategi ini, Anda dapat secara efektif mengoptimalkan kinerja Deepseek-R1 pada AWS menggunakan instance GPU.
Kutipan:
[1.
[2] https://aws.amazon.com/blogs/aws/deepseek-r1-models-now-available-on-aws/
[3] https://community.aws/content/2rhrji6cxba1ib5f3tjsfpadpxs/deploying-deepseek-r1-distill-llama-70b-for-catch-in-on-aws-graviton4?Lang=en
[4] https://blogs.nvidia.com/blog/deepseek-r1-nim-microservice/
[5] https://community.aws/content/2seuhqlpyifswckzmx585jcksgn/deploying-deepseek-r1-14b-on-amazon-ec2?lang=en
[6] https://vagon.io/blog/a-step-by-step-guide-to-running-deepseek-r1-on-vagon-cloud-desktops
[7] https://aws.amazon.com/blogs/machine-learning/optimize-hostting-deepseek-r1-distilled-models-with-hugging-face-tgi-on-amazon-sagemaker-ai/
[8] https://www.reddit.com/r/aws/comments/1i8v9w5/scalable_deepseek_r1/
[9] https://aws.amazon.com/blogs/machine-learning/deepseek-r1-model-now-available-ledrock-marketplace-and-amazon-sagemaker-jumpstart/
[10] https://community.aws/content/2z6dlaohx12yunoeas7qb5yth0q/leveraging-deepseek-r1-on-aws?lang=en