Išlaidų optimizavimas norint paleisti „Deepseek-R1“ debesies platformose

Pasirinkus egzempliorių tipą, debesų platformose, tokiose kaip AWS, daro didelę įtaką „Deepseek-R1“ paleidimui. Čia pateiktas išsamus, kaip skirtingi egzempliorių tipai ir konfigūracijos daro įtaką:

1. Egzempliorių tipai ir kainodara:
- AWS: „Deepseeek-R1“ veikimo kaina AWS priklauso nuo pasirinkto egzemplioriaus tipo. Pvz., Naudojant ML.G5.2xlarge egzempliorių, yra geras našumo ir didelio masto išvadų užduočių išlaidų balansas [4]. Tačiau intensyvesniems skaičiavimams gali būti naudojami didesni atvejai, tokie kaip C8G.16xlarge on AWS graviton4, o tai kainuoja apie 1 863 USD per mėnesį pagal kainą pagal pareikalavimą [6]. Tai gali būti sumažinta naudojant EC2 taupymo planus arba taškinius atvejus, siūlant dideles nuolaidas partijų išvadų užduotims.

2. Našumo ir išlaidų optimizavimas:
-Pabaigos ir realaus laiko išvados: Didelio masto išvadoms, naudojant didesnius partijas, galima optimizuoti tiek sąnaudas, tiek našumą. Partijos transformacija neprisijungus dar labiau sumažina sąnaudas, apdorojant duomenis dideliais, o ne realiuoju laiku [4].
- Stebėjimo atvejai: Naudodamiesi taškinių egzempliorių naudojimu, galite pasiūlyti iki 90% nuolaidos, palyginti su kainų nustatymu pagal pareikalavimą, todėl jie yra idealūs partijų apdorojimui, kai pertraukimai yra valdomi [6].

3. Aparatūros aspektai:
- GPU ir CPU: Nors GPU kaip „Nvidia H100“ yra galingi, jie yra brangūs. Naudojant procesorių su didele RAM, ypač tokiems modeliams kaip „Deepseek-R1“, kuriuose naudojamas ekspertų (MOE) architektūros mišiniai, gali būti ekonomiškesni [8].
-Alternatyvūs teikėjai: Atsižvelgiant į AMD MI300 mazgus „Azure“ ar 2 pakopos debesų tiekėjuose, gali pasiūlyti geresnius išlaidų ir našumo santykius, palyginti su aukščiausios klasės GPU konfigūracijomis [8].

4. Išlaidų mažinimo strategijos:
-Rezervuoti egzemplioriai: Įsipareigojimas rezervuotoms egzemplioriams gali suteikti dideles nuolaidas, palyginti su kainodara pagal pareikalavimą ilgalaikiam naudojimui.
- Automatinis mastelio keitimas: Smulkinimo taškų egzempliorių sumaišymas su pareikalaujamais egzemplioriais per automatinį mastelį gali subalansuoti prieinamumą ir kainą.
-Optimizuoti kainodaros modeliai: Kai kurie paslaugų teikėjai siūlo kainodarą už žodį, o tai gali būti ekonomiškesnė su pertraukiamais AI poreikiais, palyginti su mokėjimu už skaičiavimo išteklius [1].

Apibendrinant galima pasakyti, kad pasirinkus egzempliorių tipą, daroma įtaka sąnaudoms, darant įtaką našumo ir išteklių vartojimo pusiausvyrai. Optimizuojant egzempliorių pasirinkimą, atsižvelgiant į konkrečius darbo krūvio reikalavimus, panaudojant išlaidų taupymo strategijas, tokias kaip taškiniai egzemplioriai, ir atsižvelgiant į alternatyvių aparatinės įrangos parinktis, galima žymiai sumažinti bendrą „DeepSeeek-R1“ veikimo išlaidas.

Citatos:
[1] https://campustechnology.com/articles/2025/02/04/aws-microsoft-google-thers-make-deepseek-r1-ai-model-avleable-on-their-platforms.aspx?admgarea=news
[2] https://www.linkedin.com/posts/zhu-liang_deepseek-r1-is-better-and-heaper-wrong-actity-728814972271280128-vuyu
[3] https://forum.effectivealtruism.org/posts/d3ifbmyu5gte8xriz/is-deepseee-r1-already-better-than-o3-when-inference-costs
[4] https://aws.amazon.com/blogs/machine-learning/depall-deepseek-r1-distilled-models-on-amazon-sagemaker-using-a-large-model-inference-container/
[5] https://repost.aws/questions/qu-hcixrtfsasokh8gl-koga/pricing-model-of-deepseek-r1-distilled-llama-models-with-amazon-bedrock-custom-model-import
[6] https://community.aws/content/2rhrji6cxba1ib5f3tjsfpadpxs/deploying-deepseek-r1-distill-llama-70b-for-batch-inference-on-aws-graviton4?lang=en
]
[8] https://www.reddit.com/r/localllama/comments/1icukfm/running_deepseek_r1_on_aws_cost_hardware/

Kaip pasirinkus egzempliorių tipą veikia „DeepSeek-R1“ veikimo išlaidos