تستخدم الأنثروبور "سياسة التحجيم المسؤولة" (RSP) لإدارة المخاطر المرتبطة بنماذج الذكاء الاصطناعى القادرة بشكل متزايد [5]. تستخدم هذه السياسة إطارًا يسمى مستويات سلامة الذكاء الاصطناعى (ASL) ، مستلهمًا من معايير مستوى السلامة الحيوية التابعة للحكومة الأمريكية للتعامل مع المواد البيولوجية الخطيرة [5]. تم تصميم ASL Framework لتنفيذ المعايير السلامة والأمن والتشغيلية المناسبة لإمكانية النموذج للمخاطر الكارثية ، مع ارتفاع مستويات ASL التي تتطلب مظاهرات أكثر صرامة للسلامة [5].
أفضل النماذج الحالية في الإنسان في ASL-2 [4]. تحدد الشركة تدابير الاحتواء والنشر لـ ASL-2 و ASL-3 ، وترتكب لتحديد تدابير السلامة ASL-4 قبل تدريب نماذج ASL-3 [4]. يشير ASL-1 إلى الأنظمة التي لا تشكل أي خطر كارثي ذي معنى [5].
يتم استثمار الأنثروبور أيضًا في قابلية التفسير الميكانيكي ، والتي تتضمن تشريح وفهم الأعمال الداخلية لأنظمة الذكاء الاصطناعي ، وخاصة نماذج التعلم العميق ، في محاولة لجعل سلوك الذكاء الاصطناعي أكثر قابلية للتنبؤ به [5].
الاستشهادات:
[1] https://www.prompthub.us/blog/using-anthropic-best-practices-parameters-and-large-context-windows
[2] https://www.techrepublic.com/article/anthropic-claude-large-language-model-research/
[3] https://aizi.substack.com/p/comments-on-anthropics-scaling-monosemanticity
[4] https://ailabwatch.org/companies/anthropic/
[5] https://klu.ai/glossary/anthropic-ai
[6] https://help.promptitude.io/en/articles/8892919-ressing-anthropic-models-a-simple-guide
[7] https://www.anthropic.com/news/anthropics-sponsible-scaling-policy
[8] https://www.lesswrong.com/posts/vaopgqhfpdjca8ceh/anthropic-reflections-on-our-sponsible-scaling-policy