Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon Kuidas toimib DeepSEEK-R1 automaatne skaleerimine Sagemakeris


Kuidas toimib DeepSEEK-R1 automaatne skaleerimine Sagemakeris


Deepseek-R1 mudelite automaatne skaleerimine Amazon SageMakeris on kriitiline funktsioon, mis võimaldab neil suurtel keelemudelitel oma ressursse dünaamiliselt kohandada, lähtudes sissetulevate taotluste mahust. See võime on reaalainete rakenduste reageerimisvõime, usaldusväärsuse ja kulutõhususe säilitamiseks hädavajalikud. Siin on üksikasjalik ülevaade sellest, kuidas automaatse skaleerimine toimib Deepseek-R1 jaoks Sagemakeris:

Ülevaade automaatsest skaleerimisest

Automaatne skaleerimine SageMakeris on loodud töökoormuse põhjal eksemplaride arvu automaatselt reguleerimiseks. Deepseek-R1 mudelite puhul tähendab see, et Sagemakeri lõpp-punktid saavad horisontaalselt skaleerida, et suurenenud liiklust käsitleda, lisades rohkem juhtumeid. Vastupidiselt võib SageMaker vähese nõudlusega perioodidel skaleerida nulljuhtumiteni, optimeerides sellega ressursside kasutamist ja vähendades kulusid.

Automaatse skaleerimise võtmekomponendid

1. koormuse tasakaalustamine: SageMaker lõpp -punktid toetavad automaatse koormuse tasakaalustamist, mis jaotab sissetulevaid taotlusi mitmel juhul. See tagab, et ükski juhtum pole ülekoormatud, säilitades järjepideva jõudluse isegi suure koormuse tingimustes.

2. skaleerimispoliitika: kasutajad saavad määratleda konkreetsete mõõdikute, näiteks protsessori kasutamise või taotlemise latentsusaja, skaleerimise põhimõtted. Need poliitikad määravad, millal suurendada või alla. Deepseek-R1 mudelite jaoks võivad tavalised mõõdikud hõlmata otsest latentsusaja, läbilaskevõime märke, aega esimese sümboolse ja omavahelise latentsusajaga.

3. samaaegsus- ja eksemplari tüübid: Deepseek-R1 mudeleid saab juurutada erinevatel eksemplaridel, millel kõigil on erinevad GPU konfiguratsioonid (nt 1, 4 või 8 GPU-d eksemplari kohta). Eksemplari tüübi valik mõjutab mudeli jõudlust ja mastaapsust. Valides sobivad eksemplari tüübid ja konfigureerides samaaegse taseme, saavad kasutajad optimeerida mudeli reageerimisvõimet ja tõhusust.

juurutamisprotsess

DeepSEEEK-R1 mudelite juurutamiseks koos SageMakeris automaatse skaleerimisega järgivad kasutajad neid samme tavaliselt:

-Mudelivalik: valige sobiv Deepseek-R1 mudeli variant, näiteks destilleeritud versioonid (nt Deepseek-R1-Distill-LLAMA-8B), mis pakuvad tasakaalu jõudluse ja tõhususe vahel.

- lõpp -punkti konfiguratsioon: seadistage valitud mudeliga SageMakeri lõpp -punkt. See hõlmab mudeli asukoha määramist (nt näokeskuse või privaatse S3 ämbri kallistamist), keskkonnamuutujate konfigureerimist ning eksemplari tüübi ja esialgse eksemplari arvu määratlemist.

-Automaatne skaleerimise konfiguratsioon: määratlege automaatse skaleerimise põhimõtted, mis põhinevad soovitud mõõdikutel (nt CPU kasutamine). See tagab, et lõpp -punkt skaleerib dünaamiliselt vastusena töökoormuse muutustele.

- Seire ja optimeerimine: jälgige pidevalt lõpp -punkti jõudlust ja reguleerige skaleerimispoliitikat vastavalt vajadusele optimaalse jõudluse ja kulutõhususe säilitamiseks.

DeepSEEK-R1 automaatse skaleerimise eelised

- Kulude tõhusus: vähendades madala nõudlusega perioodidel, saavad organisatsioonid märkimisväärselt vähendada suurte keelemudelite käitamisega seotud kulusid.
- Parem reageerimisvõime: automaatne skaleerimine tagab, et mudel reageerib isegi suure koormuse tingimustes, suurendades kasutajakogemust.
- Lihtsustatud juhtimine: SageMakeri hallatav infrastruktuur lihtsustab juurutamise ja skaleerimise protsessi, võimaldades arendajatel keskenduda pigem mudeli väljatöötamisele ja rakenduste integreerimisele kui infrastruktuuri haldamisele.

Üldiselt pakub SAGEMakeris toimuva DeepSEEK-R1 mudelite automaatne skaleerimine kindlat ja tõhusat viisi täiustatud keelemudelite juurutamiseks, tagades, et nad saavad hakkama erineva töökoormusega, säilitades samal ajal suure jõudluse ja kulutõhususe.

Tsitaadid:
]
]
[3] https://repost.aws/questions?view=all&sort=recent&page=eyj2ijoylcjuijoiMxfKulbzbgfwwotbz Qxfgakl5nzbxut09iiiwidci6Ilfjbxdxdxdlptbtrgzkzkvprjlwsstza2hsmdgymutjwe1rdhkzse5snfk9in0
]
[5] https://www.byteplus.com/en/topic/383390
[6] https://repost.aws/questions?view=all&sort=RECENT&PAGE=Eyj2ijoylCJUiJoiqup4CUorys9pt29Q AEHNTJH6NDY0DZY0DZ09IIIIWIDCI6InVCUNVCUNVRMFIMFIMFQ0OTLUC1V5MKFTAWJPWMJVTWMJVTHLKOFJMTTRXDD3YVYZRTCMC9in0
]
[8] https://cossasyst.com/blog/deepseek-r1-on-aws-bedrock/
]