Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon Hogyan működik az automatikus méretezés a DeepSeek-R1-nél a Sagemaker-en


Hogyan működik az automatikus méretezés a DeepSeek-R1-nél a Sagemaker-en


Az Amazon SageMaker mély-R1 modelljeinek automatikus méretezése olyan kritikus tulajdonság, amely lehetővé teszi ezeknek a nagy nyelvi modelleknek, hogy erőforrásaikat a bejövő kérések mennyisége alapján dinamikusan beállítsák. Ez a képesség elengedhetetlen a reagálás, a megbízhatóság és a költséghatékonyság fenntartásához a valós alkalmazásokban. Itt található egy részletes áttekintés arról, hogy az automatikus méretezés hogyan működik a DeepSeek-R1-en a Sagemaker-en:

Az automatikus méretezés áttekintése

Az automatikus méretezés a Sagemaker-ben úgy van kialakítva, hogy a munkaterhelés alapján automatikusan beállítsa a példányok számát. A DeepSeek-R1 modellek esetében ez azt jelenti, hogy a Sagemaker végpontjai vízszintesen méretezhetnek a megnövekedett forgalom kezelése érdekében, több példány hozzáadásával. Ezzel szemben az alacsony kereslet periódusaiban a Sagemaker nulla példányra tud méretezni, ezáltal optimalizálva az erőforrás -felhasználást és csökkentve a költségeket.

Az automatikus méretezés kulcseleme

1. Terhelés -kiegyensúlyozás: A Sagemaker végpontjai támogatják az automatikus terheléselosztást, amely több esetben elosztja a bejövő kéréseket. Ez biztosítja, hogy egyetlen példány sem túlterhelt, és még nagy terhelési körülmények között is fenntartja a következetes teljesítményt.

2. Méretezési politikák: A felhasználók meghatározhatják a skálázási politikákat meghatározott mutatók, például a CPU felhasználása vagy a kérés késleltetése alapján. Ezek a politikák meghatározzák, mikor kell felfelé vagy lefelé méretezni. A DeepSeek-R1 modellek esetében a közös mutatók magukban foglalhatják a végpontok közötti késleltetést, az átviteli tokeneket, az első token időt és az internetes késleltetést.

3. párhuzamos és példánytípusok: A DeepSeek-R1 modellek különféle példánytípusokon telepíthetők, mindegyik különböző GPU-konfigurációkkal (például 1, 4 vagy 8 GPU-k). A példánytípus megválasztása befolyásolja a modell teljesítményét és méretezhetőségét. A megfelelő példánytípusok kiválasztásával és az egyidejű szintek konfigurálásával a felhasználók optimalizálhatják a modell reakcióképességét és hatékonyságát.

A telepítési folyamat

A SAGEMAKER automatikus méretezésével a mélySeek-R1 modellek telepítéséhez a felhasználók általában ezeket a lépéseket követik:

-Modellválasztás: Válassza ki a megfelelő DeepSeek-R1 modellváltozatot, például a desztillált verziókat (például a DeepSeek-R1-Distill-LLAMA-8B), amelyek egyensúlyt nyújtanak a teljesítmény és a hatékonyság között.

- Endpoint konfiguráció: Állítson be egy Sagemaker végpontot a kiválasztott modellel. Ez magában foglalja a modell helyének meghatározását (például a Face Hub átölelése vagy a privát S3 vödör átölelése, a környezeti változók konfigurálása, valamint a példánytípus és a kezdeti példányszám meghatározása.

-Auto-scaling konfiguráció: Határozza meg az automatikus méretezési politikákat a kívánt mutatók alapján (például CPU felhasználás). Ez biztosítja, hogy a végpont skálán dinamikusan lép fel a munkaterhelés változásaira.

- Figyelemmel kísérés és optimalizálás: Folyamatosan ellenőrizze a végpont teljesítményét, és módosítsa a méretezési politikákat az optimális teljesítmény és a költséghatékonyság fenntartása érdekében.

A DeepSeek-R1 automatikus méretezésének előnyei

- Költséghatékonyság: Az alacsony kereslet idején történő méretezéssel a szervezetek jelentősen csökkenthetik a nagy nyelvi modellek működtetésével kapcsolatos költségeket.
- Javított reakcióképesség: Az automatikus méretezés biztosítja, hogy a modell még nagy terhelési körülmények között is reagáljon, javítva a felhasználói élményt.
- Egyszerűsített menedzsment: A Sagemaker kezelt infrastruktúrája egyszerűsíti a telepítési és méretezési folyamatot, lehetővé téve a fejlesztők számára, hogy a modellfejlesztésre és az alkalmazás integrációjára összpontosítsanak, nem pedig az infrastruktúra -kezelésre.

Összességében a Sagemaker mély-R1 modelljeinek automatikus méretezése robusztus és hatékony módszert kínál a fejlett nyelvi modellek telepítésére, biztosítva, hogy kezeljék a különböző munkaterheléseket, miközben megőrzik a nagy teljesítményt és a költséghatékonyságot.

Idézetek:
[1] https://aws.amazon.com/blogs/machine-learning/deploy-deepseek-r1-distilled-models-on-amazon-sagemaker-using-a--Large-model-inference-container/
[2] https://blogs.cisco.com/security/evaluating-security-risk-in-deepseek-and-other-frontier-reason-models
[3] https://repost.aws/questions?view=all&sort=recent&page=eyJ2ijoylcjuijuiMxfkulbzbgfwotbz Qxfgakl5nzbxut09iiwidci6ilfjbxdxdlptbtrgzknhzkvprjlwsstza2hsmdgymutjwe1rdhkzse5snfk9in0
[4] https://aws.amazon.com/blogs/machine-learning/optimize-hosting-deepseek-r1-distled-models-with-hugging-face-tgi-on-amazon-sagemaker-Ai/
[5] https://www.byteplus.com/en/topic/383390
[6] https://repost.aws/questions?view=all&sort=recent&page=eyJ2ijoylcjuiiiqup4cuorys9pt29q aehntJh6ndy0dz09iiwidci6innvcunvrmfimfq0oTluc1v5mkftawjpwmjvthlkofJmttrxd3yvyzrtcmc9in0
[7] https://www.oneclickitsolution.com/centerofexcellence/aiml/deploy-deepseek-r1-amazon-sagemaker-guide
[8] https://crossasyst.com/blog/deepseek-r1-on-aws-bedrock/
[9] https://community.aws/content/2z6dlaohx12yunoeas7qb5yth0q/leveraging-deepseek-r1-on-aws?lang=en