أنثروبور يضمن سلامة وموثوقية الذكاء الاصطناعي من خلال العديد من التدابير ، بما في ذلك اختبار الإجهاد ، وبروتوكولات السلامة ، وسياسة التحجيم المسؤولة [1]. إنهم يستخدمون مستويات سلامة الذكاء الاصطناعى (ASL) ، على غرار مستويات السلامة الحيوية ، لتحديد تدابير السلامة على أساس المخاطر المحتملة [2] [3].
المكونات الرئيسية لنهج سلامة الإنسان:
* سياسة التحجيم المسؤولة (RSP) تستخدم نظامًا لمستويات سلامة الذكاء الاصطناعى (ASL) [3]. إذا أظهر نظام الذكاء الاصطناعي بعض القدرات الخطرة ، فإن الأنثروبور تلتزم بعدم نشره أو تدريب نماذج أكثر قوة حتى يتم تنفيذ ضمانات محددة [3].
* الاختبارات المتكررة الاختبارات الإنسانية بشكل متكرر للقدرات الخطرة على فترات منتظمة لضمان عدم إنشاء القدرات الخطرة بشكل غير مدرك [3].
* التقييمات النموذجية المصممة لاكتشاف القدرات الخطرة ، تعمل هذه التقييمات كـ "علامات تحذير" محافظة لمنع تجاوز عتبات السلامة الحرجة عن طريق الخطأ [2]. قد تتكون التقييمات من مراحل صعوبة متعددة ، حيث يتم تشغيل المراحل اللاحقة فقط إذا أظهرت التقييمات السابقة علامات تحذير [2].
* الالتزامات الإجرائية تحدد ASLs ما يجب أن يكون صحيحًا في نماذج الأنثروبور والأمن للسماح بتدريب ونشر آمن [2].
* المراقبة والتسجيل: للاستخدام الداخلي ، يتم تسجيل المخرجات المولدة والمدخلات المقابلة والاحتفاظ بها لمدة 30 يومًا على الأقل. تتم مراقبة هذه السجلات للنشاط غير الطبيعي ، وتؤخذ الإنذارات على محمل الجد والاستجابة على الفور [2].
* وصول متدرج: في الحالات المحدودة ، قد تكون النماذج ذات القدرات ذات الصلة بالضرر الكارثي متاحًا لمجموعة مختارة من المستخدمين الذين تم فحصهم مع حالة استخدام شرعية ومفيدة لا يمكن فصلها عن القدرات الخطرة ، شريطة أن يتم منح الوصول بأمان وبالتوصل إلى إشراف كاف [2].
* الضعف والإفصاح عن الحوادث: تشارك الأنثروبور في عملية التعرض للضعف والكشف عن الحوادث مع مختبرات أخرى (مع مراعاة القيود الأمنية أو القانونية) التي تغطي نتائج الدوران الأحمر ، وتهديدات الأمن القومي ، وتهديدات النسخ المتماثل المستقل [2].
* الاستجابة السريعة لنقاط الضعف النموذجية: عند إبلاغه بتعرض النموذج الذي تم اكتشافه حديثًا مما يتيح الضرر الكارثي ، فإن الأنثروبور تلتزم بالتخفيف أو تصحيحها على الفور [2].
* التحكم في الحزبين: يتم تطبيقه على جميع الأنظمة المشاركة في تطوير وتدريب واستضافة ونشر نماذج Frontier AI ، وهذا يتضمن تصميمًا للنظام حيث لا يوجد شخص واحد لديه وصول مستمر إلى بيئات الإنتاج والحرجة ؛ بدلاً من ذلك ، يجب عليهم طلب الوصول المحدود للوقت من زميل في العمل مع تبرير الأعمال [8].
* تتضمن ميزات سلامة المستخدم هذه نماذج الكشف للعلامة على المحتوى الضار المحتمل ، ومرشحات السلامة على المطالبات ، ومرشحات السلامة المحسنة للمستخدمين الذين ينتهكون السياسات مرارًا وتكرارًا [7].
يستخدم الأنثروبري أيضًا نماذج الكشف للإبلاغ عن محتوى ومرشحات أمان ضار على المطالبات [7]. إنهم يستثمرون بنشاط وتجربة ميزات أمان إضافية وتوفير أدوات للتخفيف من الأذى ، ويشجعون المستخدمين على تقديم ملاحظات حول هذه التدابير [7].
الاستشهادات:
[1] https://myscale.com/blog/transformative-influence-anthropic-ai-safety-measures/
[2] https://www-cdn.anthropic.com/1adf000c8f675958c2EE23805D91AAADE1CD4613/Responsible-scaling-policy.pdf
[3] https://www.anthropic.com/news/uk-ai-safety-summit
[4]
[5] https://www.anthropic.com/news/core-views-on-ai-safety
[6] https://engineeringideas.substack.com/p/comments-on-anthropics-ai-safety
[7] https://support.anthropic.com/en/articles/8106465-our-approach-to-user-safety
[8] https://www.anthropic.com/news/frontier-model-security