Az automatikus méretezés szignifikánsan javítja a DeepSeek-R1 modellek teljesítményét az Amazon Sagemaker-en azáltal, hogy dinamikusan beállítja az példányok számát és a modell példányokat a valós idejű kereslet alapján. Ez a képesség biztosítja, hogy a modell hatékonyan kezelje a munkaterhelés ingadozásait, zökkenőmentes felhasználói élményt nyújtva az erőforrások felhasználásának és költségeinek optimalizálása közben.
A SAGEMAKER AUTO-SCALING kulcsfontosságú előnyei a DeepSeek-R1 számára
1. dinamikus erőforrás-elosztás: Az automatikus méretezés lehetővé teszi a SageMaker számára, hogy további példányokat biztosítson és több modell példányt telepítsen, amikor a forgalom növekszik, biztosítva, hogy a modell képes kezelni a nagyobb kérések mennyiségét anélkül, hogy veszélyeztetné a teljesítményt. Ezzel szemben, a forgalom csökkenésével a felesleges példányokat eltávolítják, csökkentve a költségeket az alapjárati erőforrások elkerülésével [1] [2] [5].
2. Javított reakcióképesség: A megnövekedett kereslet kielégítésével az automatikus méretezés segít fenntartani az alacsony késés és a magas átviteli sebességet. Ez különösen fontos a generatív AI modelleknél, mint például a DeepSeek-R1, ahol a reagálás közvetlenül befolyásolja a felhasználói élményt [2] [8].
3. Költséghatékonyság: Az automatikus méretezés biztosítja az erőforrások hatékony felhasználását. A nem csúcsidőben a végpont nullára méretezheti, optimalizálva az erőforrás-felhasználást és a költséghatékonyságot. Ez a szolgáltatás különösen hasznos a változó forgalmi mintákkal rendelkező alkalmazásoknál [1] [5].
4. Adaptív méretezés: A Sagemaker automatikus skálázási funkcióit úgy tervezték, hogy alkalmazkodjanak a generatív AI modellek, például a DeepSeek-R1 speciális igényeihez. A nagy felbontású mutatók, például a ContrentRequestSpermodel és a ContentRequestSpercopy felhasználásával a rendszer pontos méretezési döntéseket hozhat, biztosítva, hogy a modell reagáló és költséghatékony maradjon [2] [8].
5. Integráció a terheléselosztással: Az automatikus méretezés zökkenőmentesen működik az elasztikus terheléselosztással, hogy a bejövő kérelmeket hatékonyan elosztja a méretezett erőforrások között. Ez az integráció biztosítja, hogy egyetlen példány sem túlterhelt, és fenntartja a következetes teljesítményt az összes kérésben [1] [8].
A telepítés és a teljesítményértékelés
A DeepSeek-R1 modellek telepíthetők a Sagemaker-en az ölelés arcszöveg-generációs következtetése (TGI) felhasználásával, amely támogatja az automatikus méretezést. Ezeknek a modelleknek a teljesítményét olyan mutatók alapján értékelik, mint például a végpontok közötti késleltetés, az áteresztőképesség, az első token idő és az internetes késleltetés. Míg a megadott értékelések betekintést nyújtanak a relatív teljesítménybe, a felhasználókat arra ösztönzik, hogy végezzék el saját tesztelésüket a teljesítmény optimalizálása érdekében az adott felhasználási esetekhez és a hardverkonfigurációkhoz [1] [4].
Összefoglalva: a Sagemaker automatikus skálázása javítja a DeepSeek-R1 teljesítményét azáltal, hogy biztosítja a dinamikus erőforrás-elosztást, javítja a reagálást, optimalizálja a költségeket, és alkalmazkodjon a változó igényekhez, mindeközben fenntartva a magas színvonalú nyelvmodell képességeit.
Idézetek:
[1] https://aws.amazon.com/blogs/machine-learning/optimize-hosting-deepseek-r1-distled-models-with-hugging-face-tgi-on-amazon-sagemaker-Ai/
[2] https://randomtrees.com/blog/auto-scaling-for-genative-aimodels-with-amazon-sagemaker/
[3] https://repost.aws/questions?view=all&sort=recent&page=eyj2ijoylcjuioizgtmyktumnf0wuzn Y1dmahkxcgrvut09iiwidci6ikzrbitwvzi2m05zvklzbwgzt0vwzk5wvm5ovkivoxyn21tq0ppdthrwwc9in0
[4] https://aws.amazon.com/blogs/machine-learning/deploy-deepseek-r1-distilled-models-on-amazon-sagemaker-using-a--Large-model-inference-container/
[5] https://docs.aws.amazon.com/sagemaker/latest/dg/endpoint-auto-scaling.html
[6] https://www.byteplus.com/en/topic/382691
[7] https://campustewnology.com/articles/2025/03/14/aws- és-deepseek-r1-as-shanaged-serverless-model-recommends-guardrails.aspx
[8] https://aws.amazon.com/blogs/machine-learning/amazon-sagemaker-inference-launches-faster-auto-scaling-for-genative-ai-models/