يتضمن التقسيم التلقائي مع موازنة التحميل المرنة (ELB) في Amazon Sagemaker ضبط عدد الحالات بناءً على متطلبات عبء العمل مع توزيع حركة المرور الواردة بكفاءة عبر هذه الحالات. فيما يلي نظرة عامة مفصلة على كيفية عمل هذا التكامل:
التقييم التلقائي في Sagemaker
تدعم Amazon Sagemaker التقيد التلقائي لنقاط النهاية في الوقت الفعلي ، مما يسمح للنظام بضبط عدد الحالات التي يتم توفيرها بشكل ديناميكي لنموذج استجابةً للتغيرات في عبء عمل الاستدلال [3] [7]. تضمن هذه الميزة تحسين الموارد عن طريق التوسع خلال ساعات الذروة والتوسيع خلال فترات منخفضة الطلب ، وبالتالي الحفاظ على الأداء الأمثل مع تقليل التكاليف [1] [3].
يقدم Sagemaker العديد من خيارات التقييم التلقائي ، بما في ذلك تحجيم التتبع المستهدف ، وتوسيع نطاق الخطوة ، والتوسيع المجدول. يتم استخدام تحجيم التتبع الهدف بشكل شائع ، حيث تقوم بتعيين مقياس مستهدف (على سبيل المثال ، استخدام وحدة المعالجة المركزية) ويقوم Sagemaker بضبط عدد المثيل للحفاظ على هذا الهدف [3] [5].
تكامل موازنة التحميل المرن (ELB)
بينما يركز التقسيم التلقائي التابع لـ Sagemaker بشكل أساسي على ضبط عدد المثيلات بناءً على مقاييس عبء العمل ، فإن الاندماج مع موازنة التحميل المرنة يعزز توزيع حركة المرور عبر هذه الحالات. يضمن ELB أن يتم توجيه الطلبات الواردة على النحو الأمثل إلى الحالات المتاحة ، مما يؤدي إلى تحسين الاستجابة وتقليل الاختناقات [9].
في إعداد نموذجي ، يسجل ELB مثيلات في مجموعة تحجيم السيارات وتوزيع حركة المرور عبرها. عند إضافة الحالات أو إزالتها عن طريق التحجيم التلقائي ، تقوم ELB تلقائيًا بضبط تكوينها لتضمين هذه الحالات أو استبعادها ، مما يضمن توجيه حركة المرور دائمًا إلى مثيلات نشطة [9].
كيف يعمل التقسيم التلقائي مع ELB في Sagemaker
1. مراقبة عبء العمل: يراقب Sagemaker مقاييس عبء العمل مثل استخدام وحدة المعالجة المركزية أو الطلبات المتزامنة لكل مثيل. إذا تجاوزت هذه المقاييس عتبات محددة مسبقًا ، يتم تشغيل سياسة التقسيم التلقائي [2] [3].
2. إجراءات التحجيم: عندما يزداد عبء العمل ، فإن Sagemaker يتجه إلى توفير مثيلات إضافية. يقوم ELB تلقائيًا بتسجيل هذه الحالات الجديدة ويبدأ في توزيع حركة المرور عليها. على العكس من ذلك ، عندما ينخفض عبء العمل ، يتردد Sagemaker عن طريق إزالة مثيلات غير ضرورية ، وإلغاءات ELB هذه الحالات لمنعها من تلقي حركة المرور [2] [9].
3. توزيع حركة المرور: خلال هذه العملية ، يضمن ELB توزيع الطلبات الواردة بكفاءة عبر الحالات النشطة. هذا لا يعزز الأداء فحسب ، بل يساعد أيضًا في الحفاظ على تجربة مستخدم ثابت عن طريق تقليل أوقات الاستجابة وتجنب الاختناقات [9].
4. تحسين التكلفة: عن طريق تحجيم مثيلات بناءً على الطلب الفعلي واستخدام ELB لإدارة توزيع حركة المرور ، يمكن للمؤسسات تحسين تكاليفها. إنهم يدفعون فقط مقابل الموارد التي يستخدمونها ، مما يقلل من النفقات غير الضرورية خلال فترات الطلب المنخفض [3] [7].
باختصار ، يوفر دمج التقييم التلقائي مع موازنة التحميل المرنة في Sagemaker طريقة قوية وفعالة لإدارة أعباء عمل الاستدلال في الوقت الفعلي. إنه يضمن تعديل الموارد ديناميكيًا لتلبية المتطلبات المتغيرة مع الحفاظ على الأداء الأمثل وكفاءة التكلفة.
الاستشهادات:
[1]
[2] https://randomtrees.com/blog/auto-scaling-for-generative-ai-models-with-amazon-sagemaker/
[3]
[4] https://repost.aws/questions/qudpxlldhzs1gnasln4ebrxw/sagemaker-inference-recommendation
[5] https://www.restack.io/p/real-tim-ai-inference-answer-sagemaker-autoscaling-cat-ai
[6] https://stackoverflow.com/questions/71344215/how-does-scaling-policy-work-with-sagemaker-endpoints
[7] https://docs.aws.amazon.com/sagemaker/latest/dg/endpoint-auto-scaling.html
[8] https://docs.aws.amazon.com/sagemaker/latest/dg/endpoint-auto-scaling-policy.html
[9] https://jayendrapatil.com/aws-auto-scaling-elb/