Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon كيف تضمن الأنثروبور سلامة نماذج الذكاء الاصطناعى


كيف تضمن الأنثروبور سلامة نماذج الذكاء الاصطناعى


أنثروبور يضمن سلامة نماذج الذكاء الاصطناعى من خلال مجموعة متنوعة من التقنيات والسياسات ، بما في ذلك سياسة التحجيم المسؤولة (RSP) ، ومستويات سلامة الذكاء الاصطناعي (ASL) ، ومرشحات السلامة ، ونماذج الكشف [2] [5]. تعتبر سلامة المستخدم أساسية في مهمة الأنثروبور لإنشاء أنظمة الذكاء الاصطناعى الموثوقة والقابلة للتفسير والقابلة للتفسير [5].

تدابير السلامة الرئيسية:
* طورت سياسة التحجيم المسؤولة (RSP) الأنثروبور RSP لإدارة المخاطر المرتبطة بنماذج الذكاء الاصطناعى القادرة بشكل متزايد [2]. تقدم السياسة إطارًا يسمى مستويات سلامة الذكاء الاصطناعي (ASL) ، مستلهمًا من معايير مستوى السلامة الحيوية للحكومة الأمريكية (BSL) التي يتم استخدامها للتعامل مع المواد البيولوجية الخطيرة [2] [7]. تمت الموافقة على RSP رسميًا من قبل مجلس إدارة الإنسان ، ويجب أن تتم الموافقة على أي تغييرات على السياسة من قبل المجلس [2].
* مستويات سلامة الذكاء الاصطناعي (ASL) تم تصميم إطار ASL لضمان أن تكون السلامة والأمن والمعايير التشغيلية مناسبة لإمكانية النموذج للمخاطر الكارثية [2] [7]. تتطلب مستويات ASL الأعلى مظاهرات أكثر صرامة للسلامة [2]. توازن السياسة بين القيمة الاقتصادية والاجتماعية لمنظمة العفو الدولية مع الحاجة إلى التخفيف من المخاطر الشديدة ، وخاصة المخاطر الكارثية التي يمكن أن تنشأ من سوء استخدام أو سلوكيات مدمرة غير مقصودة من قبل النماذج نفسها [2].
* تستخدم مرشحات الأمان البشرية مرشحات الأمان على المطالبات ، والتي قد تمنع الاستجابات من النموذج عندما يكون نماذج الكشف الخاصة بهم ضارًا [5]. لديهم أيضًا مرشحات السلامة المعززة ، والتي تسمح لهم بزيادة حساسية نماذج الكشف الخاصة بهم [5]. قد تطبق الأنثروبور مؤقتًا مرشحات السلامة المحسّنة للمستخدمين الذين ينتهكون سياساتهم مرارًا وتكرارًا ، ويزيلون هذه الضوابط بعد فترة لا أو عدد قليل من الانتهاكات [5].
* تستخدم نماذج الكشف الإنسانية نماذج الكشف التي تشير إلى محتوى ضار على أساس سياسة الاستخدام [5].

ضمانات إضافية:
* SONSEFUARDS BASION تتضمن تخزين معرفات مرتبطة بكل مكالمة API لتحديد محتوى انتهاك معين وتعيين معرفات للمستخدمين لتتبع الأفراد الذين ينتهكون AUP [1]. كما يضمنون أن العملاء يفهمون الاستخدامات المسموح بها والنظر في مطالبة العملاء بالتسجيل للحصول على حساب على نظامهم الأساسي قبل استخدام Claude [1].
* SONFEGUARDS الوسيطة تنشئ الأطر التخصيص التي تقيد تفاعلات المستخدم النهائي مع كلود لمجموعة محدودة من المطالبات أو السماح فقط لكلود بمراجعة مجموعة محددة للمعرفة ، مما يقلل من قدرة المستخدمين على الانخراط في سلوك انتهاك [1]. كما أنها تتيح مرشحات أمان إضافية ، والتي تعد أدوات الاعتدال في الوقت الفعلي المجاني من قبل الإنسان للمساعدة في اكتشاف المطالبات الضارة المحتملة وإدارة الإجراءات في الوقت الفعلي لتقليل الضرر [1].
* ضمانات متقدمة تدير واجهة برمجة تطبيقات الاعتدال ضد جميع مطالبات المستخدم النهائي قبل إرسالها إلى كلود ، تضمن أنها ليست ضارة [1].
* SONFIGUARDS الشاملة تقوم بإعداد نظام مراجعة بشري داخلي للعلامة على الموجهات التي يتميز بها كلود أو واجهة برمجة تطبيقات الاعتدال على أنها ضارة ، بحيث يمكنها التدخل لتقييد المستخدمين أو إزالة المستخدمين بمعدلات انتهاك عالية [1].

تلتزم الإنسان أيضًا بموثوقية وتفسير أنظمة الذكاء الاصطناعى الخاصة بها ، والتي تحققت من خلال البحث الصارم وتطبيق تقنيات السلامة المتقدمة [2]. يتمثل أحد الاختراقات الكبيرة في القابلية للتفسير في استخدام الأنثروبور لأدوات التوصيل التلقائية المتفرقة لـ "استخراج الميزة الأحادية" ، مما يبسط الشبكات العصبية المعقدة إلى مكونات مفهومة [2].

الاستشهادات:
[1] https://support.anthropic.com/en/articles/9199617-api-trust-safety-tools
[2] https://klu.ai/glossary/anthropic-ai
[3]
[4] https://www.anthropic.com/news/frontier-model-security
[5] https://support.anthropic.com/en/articles/8106465-our-approach-to-user-safety
[6] https://www.alignmentforum.org/posts/xhkr5ktvdjrssmej3/anthropic-s-core-views-on-ai-safety
[7] https://www.anthropic.com/news/anthropics-sponsible-scaling-policy
[8] https://engineeringideas.substack.com/p/comments-on-anthropics-ai-safety
[9] https://www.youtube.com/watch؟v=e6_x0zoxvvi
[10] https://www.anthropic.com/news/core-views-on-ai-safety

إجابة من الحيرة: https://www.perplexity.ai/search/how-does-anthropic-ensure-the-.dwp39i9qu63n9c3qw1va؟utm_source=copy_output