أنثروبور يضمن سلامة نماذج الذكاء الاصطناعى من خلال مجموعة متنوعة من التقنيات والسياسات ، بما في ذلك سياسة التحجيم المسؤولة (RSP) ، ومستويات سلامة الذكاء الاصطناعي (ASL) ، ومرشحات السلامة ، ونماذج الكشف [2] [5]. تعتبر سلامة المستخدم أساسية في مهمة الأنثروبور لإنشاء أنظمة الذكاء الاصطناعى الموثوقة والقابلة للتفسير والقابلة للتفسير [5].
تدابير السلامة الرئيسية:
* طورت سياسة التحجيم المسؤولة (RSP) الأنثروبور RSP لإدارة المخاطر المرتبطة بنماذج الذكاء الاصطناعى القادرة بشكل متزايد [2]. تقدم السياسة إطارًا يسمى مستويات سلامة الذكاء الاصطناعي (ASL) ، مستلهمًا من معايير مستوى السلامة الحيوية للحكومة الأمريكية (BSL) التي يتم استخدامها للتعامل مع المواد البيولوجية الخطيرة [2] [7]. تمت الموافقة على RSP رسميًا من قبل مجلس إدارة الإنسان ، ويجب أن تتم الموافقة على أي تغييرات على السياسة من قبل المجلس [2].
* مستويات سلامة الذكاء الاصطناعي (ASL) تم تصميم إطار ASL لضمان أن تكون السلامة والأمن والمعايير التشغيلية مناسبة لإمكانية النموذج للمخاطر الكارثية [2] [7]. تتطلب مستويات ASL الأعلى مظاهرات أكثر صرامة للسلامة [2]. توازن السياسة بين القيمة الاقتصادية والاجتماعية لمنظمة العفو الدولية مع الحاجة إلى التخفيف من المخاطر الشديدة ، وخاصة المخاطر الكارثية التي يمكن أن تنشأ من سوء استخدام أو سلوكيات مدمرة غير مقصودة من قبل النماذج نفسها [2].
* تستخدم مرشحات الأمان البشرية مرشحات الأمان على المطالبات ، والتي قد تمنع الاستجابات من النموذج عندما يكون نماذج الكشف الخاصة بهم ضارًا [5]. لديهم أيضًا مرشحات السلامة المعززة ، والتي تسمح لهم بزيادة حساسية نماذج الكشف الخاصة بهم [5]. قد تطبق الأنثروبور مؤقتًا مرشحات السلامة المحسّنة للمستخدمين الذين ينتهكون سياساتهم مرارًا وتكرارًا ، ويزيلون هذه الضوابط بعد فترة لا أو عدد قليل من الانتهاكات [5].
* تستخدم نماذج الكشف الإنسانية نماذج الكشف التي تشير إلى محتوى ضار على أساس سياسة الاستخدام [5].
ضمانات إضافية:
* SONSEFUARDS BASION تتضمن تخزين معرفات مرتبطة بكل مكالمة API لتحديد محتوى انتهاك معين وتعيين معرفات للمستخدمين لتتبع الأفراد الذين ينتهكون AUP [1]. كما يضمنون أن العملاء يفهمون الاستخدامات المسموح بها والنظر في مطالبة العملاء بالتسجيل للحصول على حساب على نظامهم الأساسي قبل استخدام Claude [1].
* SONFEGUARDS الوسيطة تنشئ الأطر التخصيص التي تقيد تفاعلات المستخدم النهائي مع كلود لمجموعة محدودة من المطالبات أو السماح فقط لكلود بمراجعة مجموعة محددة للمعرفة ، مما يقلل من قدرة المستخدمين على الانخراط في سلوك انتهاك [1]. كما أنها تتيح مرشحات أمان إضافية ، والتي تعد أدوات الاعتدال في الوقت الفعلي المجاني من قبل الإنسان للمساعدة في اكتشاف المطالبات الضارة المحتملة وإدارة الإجراءات في الوقت الفعلي لتقليل الضرر [1].
* ضمانات متقدمة تدير واجهة برمجة تطبيقات الاعتدال ضد جميع مطالبات المستخدم النهائي قبل إرسالها إلى كلود ، تضمن أنها ليست ضارة [1].
* SONFIGUARDS الشاملة تقوم بإعداد نظام مراجعة بشري داخلي للعلامة على الموجهات التي يتميز بها كلود أو واجهة برمجة تطبيقات الاعتدال على أنها ضارة ، بحيث يمكنها التدخل لتقييد المستخدمين أو إزالة المستخدمين بمعدلات انتهاك عالية [1].
تلتزم الإنسان أيضًا بموثوقية وتفسير أنظمة الذكاء الاصطناعى الخاصة بها ، والتي تحققت من خلال البحث الصارم وتطبيق تقنيات السلامة المتقدمة [2]. يتمثل أحد الاختراقات الكبيرة في القابلية للتفسير في استخدام الأنثروبور لأدوات التوصيل التلقائية المتفرقة لـ "استخراج الميزة الأحادية" ، مما يبسط الشبكات العصبية المعقدة إلى مكونات مفهومة [2].
الاستشهادات:
[1] https://support.anthropic.com/en/articles/9199617-api-trust-safety-tools
[2] https://klu.ai/glossary/anthropic-ai
[3]
[4] https://www.anthropic.com/news/frontier-model-security
[5] https://support.anthropic.com/en/articles/8106465-our-approach-to-user-safety
[6] https://www.alignmentforum.org/posts/xhkr5ktvdjrssmej3/anthropic-s-core-views-on-ai-safety
[7] https://www.anthropic.com/news/anthropics-sponsible-scaling-policy
[8] https://engineeringideas.substack.com/p/comments-on-anthropics-ai-safety
[9] https://www.youtube.com/watch؟v=e6_x0zoxvvi
[10] https://www.anthropic.com/news/core-views-on-ai-safety