Automaatne skaleerimine suurendab märkimisväärselt DeepSEEK-R1 mudelite jõudlust Amazon SageMakeris, kohandades dünaamiliselt esinemisjuhtude ja mudeli koopiate arvu reaalajas nõudmisel. See võime tagab, et mudel suudab tõhusalt hakkama saada töökoormuse kõikumistega, pakkudes sujuvat kasutajakogemust, optimeerides samal ajal ressursside kasutamist ja kulusid.
SAGEMAKERi automaatse skaleerimise peamised eelised
1. Dünaamiline ressursside jaotamine: automaatne skaleerimine võimaldab SageMakeril pakkuda täiendavaid juhtumeid ja juurutada liikluse suurenemisel rohkem mudeli koopiaid, tagades, et mudel saab hakkama suurema hulga taotlustega, ilma et see kahjustaks jõudlust. Vastupidiselt, kui liiklus väheneb, eemaldatakse ebavajalikud juhtumid, vähendades kulusid, vältides jõudeolevaid ressursse [1] [2] [5].
2. Parem reageerimisvõime: suurenenud nõudluse rahuldamiseks aitab automaatne skaleerimine säilitada madala latentsusaja ja suure läbilaskevõime. See on eriti oluline generatiivsete AI-mudelite jaoks nagu Deepseek-R1, kus reageerimisvõime mõjutab otseselt kasutajakogemust [2] [8].
3. kuluefektiivsus: automaatne skaleerimine tagab ressursside tõhusa kasutamise. Tippvastutundidel võib lõpp-punkt skaalal olla nullini, optimeerides ressursside kasutamist ja kulutõhusust. See funktsioon on eriti kasulik muutuva liiklusmustritega rakenduste jaoks [1] [5].
4. Adaptiivne skaleerimine: Sagemakeri automaatsete funktsioonid on loodud kohanema selliste generatiivsete AI-mudelite konkreetsete vajadustega nagu Deepseek-R1. Kasutades selliseid kõrge eraldusvõimega mõõdikuid nagu ConcurntRentRequestspermodel ja ConcurntrentRequestspercopy, saab süsteem teha täpseid skaleerimisotsuseid, tagades, et mudel jääb reageerivaks ja kulutõhusaks [2] [8].
5. integreerimine koormuse tasakaalustamisega: automaatne skaleerimine toimib sujuvalt elastse koormuse tasakaalustamisega, et levitada sissetulevaid taotlusi tõhusalt välja lülitatud ressursside vahel. See integratsioon tagab, et ükski eksemplar pole ülekoormatud, säilitades järjepideva jõudluse kõigis taotlustes [1] [8].
juurutamise ja jõudluse hindamine
Deepseek-R1 mudeleid saab Sagamakeris juurutada, kasutades näo teksti genereerimise järeldusi (TGI), mis toetab automaatset skaleerimist. Nende mudelite toimivust hinnatakse selliste mõõdikute põhjal nagu otsast lõpuni latentsusaeg, läbilaskevõime, esimene sümboolne aeg ja omavaheline latentsus. Kuigi pakutavad hinnangud pakuvad teadmisi suhtelise jõudluse kohta, julgustatakse kasutajaid läbi viima oma testimist, et optimeerida jõudlust konkreetsete kasutusjuhtumite ja riistvara konfiguratsioonide jaoks [1] [4].
Kokkuvõtlikult suurendab SageMakeri automaatne skaleerimine DeepSEEK-R1 toimivust, tagades ressursside dünaamilise jaotuse, parandades reageerimisvõimet, optimeerides kulusid ja kohanedes muutuvate nõudmistega, säilitades samal ajal kvaliteetseid keelemudeli võimalusi.
Tsitaadid:
]
]
[3] https://repost.aws/questions?view=all&sort=recent&page=eyj2ijoylcjuiJoizgtmyKtumnf0wuzn Y1dmahkxcgrvut09iiwidci6ikzrbitwvzi2m05zvklzbwgzt0vwzk5wvM5ovkivoxbyn21tq0ppdthrwwc9in0
]
[5] https://docs.aws.amazon.com/sagemaker/latest/dg/endpoint-auto-scaling.html
[6] https://www.byteplus.com/en/topic/382691
]
]