Antropic, giderek daha fazla yapayabilen AI modelleriyle bağlantılı riskleri yönetmek için bir "sorumlu ölçeklendirme politikası" (RSP) kullanır [5]. Bu politika, ABD hükümetinin tehlikeli biyolojik materyallerin ele alınması için biyogüvenlik seviyesi standartlarından ilham alarak AI Güvenlik Düzeyleri (ASL) adı verilen bir çerçeve kullanmaktadır [5]. ASL çerçevesi, bir modelin katastrofik risk potansiyeline uygun güvenlik, emniyet ve operasyonel standartları uygulamak için tasarlanmıştır, daha yüksek ASL seviyeleri daha katı güvenlik gösterileri gerektirir [5].
Antropik'in en iyi mevcut modelleri ASL-2'dir [4]. Şirket, ASL-2 ve ASL-3 için sınırlama ve dağıtım önlemlerini tanımlar ve ASL-3 modellerini eğitmeden önce ASL-4 güvenlik önlemlerini tanımlamayı taahhüt eder [4]. ASL-1, anlamlı bir felaket riskini oluşturmayan sistemleri ifade eder [5].
Antropik, AI davranışını daha öngörülebilir ve anlaşılabilir hale getirmek amacıyla AI sistemlerinin, özellikle derin öğrenme modellerinin iç işleyişini, özellikle derin öğrenme modellerinin iç işleyişini incelemeyi ve anlamayı içeren mekanik yorumlanabilirliğe de yatırılmaktadır [5].
Alıntılar:
[1] https://www.prompthub.us/blog/using-antropic-best-practices-parameters-and-large-context-windows
[2] https://www.techrepublic.com/article/anthropic-claude-large-model-research/
[3] https://aizi.substack.com/p/comments-on-ntropics-caling-monosemanticity
[4] https://ailabwatch.org/companies/anthropic/
[5] https://klu.ai/glossary/anthropic-ai
[6] https://help.promptitude.io/en/articles/8892919-understansting-antropic-models-a-simple-guide
[7] https://www.anthropic.com/news/anthropics-pressessible-scaling-policy
[8] https://www.lesswrong.com/posts/vaopgqhfpdjca8ceh/anthropic-reflectections-on-ove- soressible-scaling-policy