Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon Kaip automatinis maskavimas pagerina „Deepseek-R1“ našumą „Sagemaker“


Kaip automatinis maskavimas pagerina „Deepseek-R1“ našumą „Sagemaker“


Automatinis skalavimas žymiai padidina „Deepseeek-R1“ modelių našumą „Amazon Sagemaker“, dinamiškai pakoreguodamas egzempliorių ir modelio kopijų skaičių, pagrįstą realiojo laiko paklausa. Ši galimybė užtikrina, kad modelis gali efektyviai valdyti darbo krūvio svyravimus, suteikdamas vientisą vartotojo patirtį, optimizuodama išteklių panaudojimą ir išlaidas.

Pagrindiniai automatinio mastelio nauda „Deepseek-R1“ „Sagemaker“

1. Dinaminis išteklių paskirstymas: Automatinis maskavimas leidžia „Sagemaker“ pateikti papildomus egzempliorius ir diegti daugiau modelio kopijų, kai srautas didėja, užtikrinant, kad modelis galėtų tvarkyti didesnį užklausų kiekį nepakenkiant našumui. Ir atvirkščiai, mažėjant eismui, nereikalingi atvejai pašalinami, todėl sumažina išlaidas vengiant tuščiosios eigos išteklių [1] [2] [5].

2. Pagerintas reagavimas: padidinant padidėjusį paklausą, automatinis skalavimas padeda išlaikyti mažą latenciją ir didelį pralaidumą. Tai ypač svarbu generuotiems AI modeliams, tokiems kaip „Deepseek-R1“, kai reagavimas daro tiesioginį poveikį vartotojo patirčiai [2] [8].

3. Kainų efektyvumas: Automatinis maskavimas užtikrina, kad ištekliai būtų naudojami efektyviai. Ne smailių valandomis galutinis taškas gali sumažėti iki nulio, optimizuodamas išteklių naudojimą ir ekonomiškumą. Ši funkcija yra ypač naudinga programoms, turinčioms kintamo srauto modelius [1] [5].

4. Adaptyvusis mastelio keitimas: „Sagemaker“ automatinio mastelio funkcijos yra skirtos prisitaikyti prie specifinių generatyvinių AI modelių, tokių kaip „Deepseek-R1“, poreikius. Pasitelkdama aukštos skiriamosios gebos metriką, tokią kaip „ConcurrentRequestSpermodel“ ir „ConcurrentRequestSpercopy“, sistema gali priimti tikslius sprendimus dėl mastelio keitimo, užtikrinant, kad modelis išliks reaguojantis ir ekonomiškai efektyvus [2] [8].

5. Integracija su apkrovos balansavimu: Automatinis maskavimas sklandžiai veikia su elastingo apkrovos balansavimu, kad būtų efektyviai paskirstytos gaunamos užklausos per didelius išteklius. Ši integracija užtikrina, kad nė vienas atvejis nebus priblokštas, išlaikant nuoseklų visų užklausų rezultatą [1] [8].

Diegimo ir veiklos įvertinimas

„Deepseek-R1“ modelius galima naudoti „Sagemaker“, naudojant apkabinantį veido teksto generavimo išvadą (TGI), palaikančią automatinį mastelį. Šių modelių veikimas įvertinamas remiantis tokiomis metrikais kaip latentinis latentinis metrika, pralaidumas, laikas iki pirmo žetono ir tarp tomo latentinis. Nors pateiktose vertinimuose yra įžvalgos apie santykinį našumą, vartotojai raginami atlikti savo bandymus, kad būtų optimizuotas našumas konkrečiems naudojimo atvejams ir aparatinės įrangos konfigūracijoms [1] [4].

Apibendrinant galima pasakyti, kad automatinis „SageMaker“ maskavimas pagerina „Deepseeek-R1“ veikimą užtikrinant dinaminį išteklių paskirstymą, gerinant reagavimą, optimizuojant išlaidas ir prisitaikant prie besikeičiančių poreikių, išlaikant aukštos kokybės kalbos modelio galimybes.

Citatos:
[1] https://aws.amazon.com/blogs/machine-learning/optimize-hosting-deepseek-r1-distilled-models-with-hugging-face-on-on-amazon-sagemaker-ai/
[2] https://randomtrees.com/blog/auto-caling-for-generative-ai-models-with-amazon-sagemaker/
[3] https://repost.aws/questions?view=all&sort=recent&page=eyj2iyylcjuiizgtmyktumnf0wuzn Y1dmahkxcgrvut09iiwidci6ikzrbitwvzi2m05zvklzbwgzt0vwzk5wvm5ovKIVOXBYN21TQ0PPDTHRWWC9IN0
[4] https://aws.amazon.com/blogs/machine-learning/depall-deepseek-r1-distilled-models-on-amazon-sagemaker-using-a-large-model-inference-container/
[5] https://docs.aws.amazon.com/sagemaker/latest/dg/endpoint-auto-caling.html
[6] https://www.byteplus.com/en/topic/382691
[7] https://campustechnology.com/articles/2025/03/14/aws-hofers-deepseek-r1-s-sull-suleage-serverleress-model-recommends-guardrails.aspx
[8] https://aws.amazon.com/blogs/machine-learning/amazon-sagemaker-inference-launches-faster-auto-mcaling-for-generative-ai-models/