Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon كيف يضمن الأنثروبريز سلامة وموثوقية نموذج الذكاء الاصطناع


كيف يضمن الأنثروبريز سلامة وموثوقية نموذج الذكاء الاصطناع


أنثروبور يضمن سلامة وموثوقية الذكاء الاصطناعي من خلال العديد من التدابير ، بما في ذلك اختبار الإجهاد ، وبروتوكولات السلامة ، وسياسة التحجيم المسؤولة [1]. إنهم يستخدمون مستويات سلامة الذكاء الاصطناعى (ASL) ، على غرار مستويات السلامة الحيوية ، لتحديد تدابير السلامة على أساس المخاطر المحتملة [2] [3].

المكونات الرئيسية لنهج سلامة الإنسان:
* سياسة التحجيم المسؤولة (RSP) تستخدم نظامًا لمستويات سلامة الذكاء الاصطناعى (ASL) [3]. إذا أظهر نظام الذكاء الاصطناعي بعض القدرات الخطرة ، فإن الأنثروبور تلتزم بعدم نشره أو تدريب نماذج أكثر قوة حتى يتم تنفيذ ضمانات محددة [3].
* الاختبارات المتكررة الاختبارات الإنسانية بشكل متكرر للقدرات الخطرة على فترات منتظمة لضمان عدم إنشاء القدرات الخطرة بشكل غير مدرك [3].
* التقييمات النموذجية المصممة لاكتشاف القدرات الخطرة ، تعمل هذه التقييمات كـ "علامات تحذير" محافظة لمنع تجاوز عتبات السلامة الحرجة عن طريق الخطأ [2]. قد تتكون التقييمات من مراحل صعوبة متعددة ، حيث يتم تشغيل المراحل اللاحقة فقط إذا أظهرت التقييمات السابقة علامات تحذير [2].
* الالتزامات الإجرائية تحدد ASLs ما يجب أن يكون صحيحًا في نماذج الأنثروبور والأمن للسماح بتدريب ونشر آمن [2].
* المراقبة والتسجيل: للاستخدام الداخلي ، يتم تسجيل المخرجات المولدة والمدخلات المقابلة والاحتفاظ بها لمدة 30 يومًا على الأقل. تتم مراقبة هذه السجلات للنشاط غير الطبيعي ، وتؤخذ الإنذارات على محمل الجد والاستجابة على الفور [2].
* وصول متدرج: في الحالات المحدودة ، قد تكون النماذج ذات القدرات ذات الصلة بالضرر الكارثي متاحًا لمجموعة مختارة من المستخدمين الذين تم فحصهم مع حالة استخدام شرعية ومفيدة لا يمكن فصلها عن القدرات الخطرة ، شريطة أن يتم منح الوصول بأمان وبالتوصل إلى إشراف كاف [2].
* الضعف والإفصاح عن الحوادث: تشارك الأنثروبور في عملية التعرض للضعف والكشف عن الحوادث مع مختبرات أخرى (مع مراعاة القيود الأمنية أو القانونية) التي تغطي نتائج الدوران الأحمر ، وتهديدات الأمن القومي ، وتهديدات النسخ المتماثل المستقل [2].
* الاستجابة السريعة لنقاط الضعف النموذجية: عند إبلاغه بتعرض النموذج الذي تم اكتشافه حديثًا مما يتيح الضرر الكارثي ، فإن الأنثروبور تلتزم بالتخفيف أو تصحيحها على الفور [2].
* التحكم في الحزبين: يتم تطبيقه على جميع الأنظمة المشاركة في تطوير وتدريب واستضافة ونشر نماذج Frontier AI ، وهذا يتضمن تصميمًا للنظام حيث لا يوجد شخص واحد لديه وصول مستمر إلى بيئات الإنتاج والحرجة ؛ بدلاً من ذلك ، يجب عليهم طلب الوصول المحدود للوقت من زميل في العمل مع تبرير الأعمال [8].
* تتضمن ميزات سلامة المستخدم هذه نماذج الكشف للعلامة على المحتوى الضار المحتمل ، ومرشحات السلامة على المطالبات ، ومرشحات السلامة المحسنة للمستخدمين الذين ينتهكون السياسات مرارًا وتكرارًا [7].

يستخدم الأنثروبري أيضًا نماذج الكشف للإبلاغ عن محتوى ومرشحات أمان ضار على المطالبات [7]. إنهم يستثمرون بنشاط وتجربة ميزات أمان إضافية وتوفير أدوات للتخفيف من الأذى ، ويشجعون المستخدمين على تقديم ملاحظات حول هذه التدابير [7].

الاستشهادات:
[1] https://myscale.com/blog/transformative-influence-anthropic-ai-safety-measures/
[2] https://www-cdn.anthropic.com/1adf000c8f675958c2EE23805D91AAADE1CD4613/Responsible-scaling-policy.pdf
[3] https://www.anthropic.com/news/uk-ai-safety-summit
[4]
[5] https://www.anthropic.com/news/core-views-on-ai-safety
[6] https://engineeringideas.substack.com/p/comments-on-anthropics-ai-safety
[7] https://support.anthropic.com/en/articles/8106465-our-approach-to-user-safety
[8] https://www.anthropic.com/news/frontier-model-security

إجابة من الحيرة: https://www.perplexity.ai/search/how-does-enthropic-ensure-the-z927kvgrtc2t9