Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon Kaip automatinis maskavimas veikia „Deepseek-R1“ „Sagemaker“


Kaip automatinis maskavimas veikia „Deepseek-R1“ „Sagemaker“


Automatinis „Deepseeek-R1“ modelių „Amazon Sagemaker“ modeliavimas yra kritinė savybė, leidžianti šiems dideliems kalbų modeliams dinamiškai koreguoti savo išteklius, atsižvelgiant į gaunamų užklausų apimtį. Ši galimybė yra būtina norint išlaikyti realaus programų reagavimo, patikimumo ir ekonomiškumo efektyvumą. Čia pateikiama išsami apžvalga, kaip automatinis skalavimas veikia „Deepseeek-R1“ „Sagemaker“:

Automatinio mastelio apžvalga

Automatinis skalavimas „Sagemaker“ yra skirtas automatiškai sureguliuoti egzempliorių skaičių, atsižvelgiant į darbo krūvį. „Deepseeek-R1“ modeliams tai reiškia, kad „Sagemaker“ galiniai taškai gali horizontaliai išplėsti padidėjusį srautą, pridedant daugiau atvejų. Atvirkščiai, mažos paklausos laikotarpiais „Sagemaker“ gali sumažėti iki nulinio egzempliorių, taip optimizuodamas išteklių naudojimą ir sumažindamas išlaidas.

Pagrindiniai automatinio mastelio komponentai

1. Apkrovos balansavimas: „Sagemaker“ galiniai taškai palaiko automatinį apkrovos balansavimą, kuris paskirsto gaunamas užklausas keliuose egzemplioriuose. Tai užtikrina, kad nė vienas atvejis nebus priblokštas, išlaikant nuoseklų našumą net esant didelėms apkrovos sąlygoms.

2. Mastelio keitimo politika: Vartotojai gali apibrėžti mastelio keitimo politiką, pagrįstą konkrečia metrika, tokiomis kaip CPU panaudojimas arba užklausos vėlavimas. Ši politika lemia, kada padidinti ar žemyn. „Deepseeek-R1“ modeliams įprasta metrika gali apimti vėlavimą iki galo, pralaidumo žetonams, nuo laiko iki pirmojo ženklo ir tarp-Tokio latencijos.

3. Lygiaverčių ir egzempliorių tipai: „Deepseeek-R1“ modelius galima diegti įvairiuose egzempliorių tipuose, kurių kiekvienas turi skirtingas GPU konfigūracijas (pvz., 1, 4 arba 8 GPU vienam egzemplioriui). Egziscijų tipo pasirinkimas daro įtaką modelio našumui ir mastelio keitimui. Pasirinkdami tinkamus egzempliorių tipus ir konfigūravę suderinamumo lygius, vartotojai gali optimizuoti modelio reagavimą ir efektyvumą.

diegimo procesas

Norėdami įdiegti „Deepseeek-R1“ modelius, naudojant automatinį skandalą „Sagemaker“, vartotojai paprastai atlieka šiuos veiksmus:

-Modelio pasirinkimas: Pasirinkite tinkamą „Deepseeek-R1“ modelio variantą, pavyzdžiui, distiliuotos versijos (pvz., „Deepseeek-R1-Distill-Llama-8B“), kurios siūlo pusiausvyrą tarp našumo ir efektyvumo.

- „Endpoint“ konfigūracija: nustatykite „Sagemaker“ baigtį naudodami pasirinktą modelį. Tai apima modelio vietos nurodymą (pvz., Apkabinant veido stebulę ar privatų S3 kibirą), aplinkos kintamųjų konfigūravimą ir egzemplioriaus tipo bei pradinio egzemplioriaus skaičiaus apibrėžimą.

-Automatinio mastelio konfigūracija: Apibrėžkite automatinio mastelio politiką, pagrįstą norima metrika (pvz., CPU panaudojimas). Tai užtikrina, kad galutinis taškas dinamiškai padidėtų reaguojant į darbo krūvio pokyčius.

- Stebėjimas ir optimizavimas: nuolat stebėkite „Endpoint“ našumą ir prireikus sureguliuokite mastelio keitimo politiką, kad būtų išlaikytas optimalus našumas ir ekonominis efektyvumas.

Automatinio mastelio pranašumai „DeepSeek-R1“

- Ekonominis efektyvumas: Mažėjant mažos paklausos laikotarpiams, organizacijos gali žymiai sumažinti išlaidas, susijusias su didelių kalbos modelių valdymu.
- Patobulintas reagavimas: Automatinis maskavimas užtikrina, kad modelis ir toliau reaguoja net esant didelėms apkrovos sąlygoms, padidindamas vartotojo patirtį.
- Supaprastintas valdymas: „Sagemaker“ valdoma infrastruktūra supaprastina diegimo ir mastelio keitimo procesą, leidžiančią kūrėjams sutelkti dėmesį į modelio kūrimą ir programų integraciją, o ne į infrastruktūros valdymą.

Apskritai, „Deepseeek-R1“ modelių „Sagemaker“ automatinis maskavimas suteikia patikimą ir efektyvų būdą diegti pažangių kalbų modelius, užtikrinant, kad jie galėtų tvarkyti įvairius darbo krūvius, išlaikant aukštą našumą ir ekonominį efektyvumą.

Citatos:
[1] https://aws.amazon.com/blogs/machine-learning/depall-deepseek-r1-distilled-models-on-amazon-sagemaker-using-a-large-model-inference-container/
[2] https://blogs.cisco.com/security/evaluating-security -risk-in-deepseek-and-ther-frontier-reasoning-models
[3] https://repost.aws/questions?view=all&sort=recent&page=eyj2iyylcjuiimxfkulbzbgfwotbz Qxfgakl5nzbxut09iiwidci6ilfjbxdxdlptbtrgzknhzkvprjlwsstza2hsmdgymutjwe1rdhkzse5Snfk9in0
[4] https://aws.amazon.com/blogs/machine-learning/optimize-hosting-deepseek-r1-distilled-models-with-hugging-face-on-on-amazon-sagemaker-ai/
[5] https://www.byteplus.com/en/topic/383390
[6] https://repost.aws/questions?view=all&sort=recent&page=eyJ2iyylcjuiiqup4CUORYS9PT29Q aehntjh6ndy0dz09iiwidci6innvcunvrmfimfq0otluc1v5mkftawjpwmjvthlkofjmttrxd3yvezrtcmc9in0
[7] https://www.oneclickitsolution.com/centerofexcellence/aiml/depall-deepseek-r1-amazon-sagemaker-guide
[8] https://crossasyst.com/blog/deepseek-r1-on-ws-bedrock/
[9] https://community.aws/content/2Z6dlaoHx12yunoeas7qb5yth0q/leveraging-deepseek-on-on-ws ?lang=en