Antropik, stres testi, güvenlik protokolleri ve sorumlu bir ölçeklendirme politikası dahil olmak üzere çeşitli önlemler yoluyla AI güvenlik ve güvenilirliği sağlar [1]. Potansiyel risklere dayalı güvenlik önlemlerini belirlemek için biyogüvenlik seviyelerinden sonra modellenen AI güvenlik seviyelerini (ASL) kullanırlar [2] [3].
Antropik güvenlik yaklaşımının temel bileşenleri:
* Sorumlu ölçeklendirme politikası (RSP) Antropik bir AI güvenlik seviyesi (ASL) sistemini kullanır [3]. Bir AI sistemi belirli tehlikeli yetenekleri gösterirse, antropik, belirli önlemler uygulanana kadar onu dağıtmamak veya daha güçlü modeller eğitmek için taahhüt eder [3].
* Tehlikeli yeteneklerin bilmeden yaratılmamasını sağlamak için düzenli aralıklarla tehlikeli yetenekler için sık sık test edilen antropik testler.
* Model Değerlendirmeleri Tehlikeli yetenekleri tespit etmek için tasarlanan bu değerlendirmeler, kritik güvenlik eşiklerini yanlışlıkla aşmayı önlemek için muhafazakar "uyarı işaretleri" olarak işlev görür [2]. Değerlendirmeler, daha sonraki aşamaların yalnızca daha önceki değerlendirmeler uyarı işaretleri göstermesi durumunda yürütüldüğü birden fazla zorluk aşamasından oluşabilir [2].
* Prosedürel taahhütler ASL'ler, güvenli eğitim ve konuşlandırmaya izin vermek için antropik modeller ve güvenlik için neyin doğru olması gerektiğini belirtir [2].
* İzleme ve günlüğe kaydetme: Dahili kullanım için üretilen çıkışlar ve karşılık gelen girişler en az 30 gün boyunca kaydedilir ve tutulur. Bu kütükler anormal aktivite için izlenir ve alarmlar ciddiye alınır ve derhal yanıtlanır [2].
* Katmanlı Erişim: Sınırlı durumlarda, erişimin güvenli ve ile verilebilmesi koşuluyla, tehlikeli yeteneklerden ayrılamayan meşru ve faydalı bir kullanım-duruma sahip belirli bir grup veteriner kullanıcı grubu için katastrofik zararla ilgili yeteneklere sahip modeller mevcut olabilir. yeterli gözetim [2].
* Güvenlik açığı ve olay açıklaması: Antropik, kırmızı takım sonuçlarını, ulusal güvenlik tehditlerini ve otonom çoğaltma tehditlerini kapsayan diğer laboratuvarlarla (güvenlik veya yasal kısıtlamalara tabi) bir güvenlik açığı ve olay ifşa sürecine girer [2].
* Model güvenlik açıklarına hızlı tepki: Katastrofik zarar veren yeni keşfedilen bir model güvenlik açığı hakkında bilgilendirildiğinde, antropik bir şekilde hafifletmek veya yamayı taahhüt eder [2].
* İki taraflı kontrol: Frontier AI modellerinin geliştirilmesi, eğitimi, barındırma ve dağıtımında yer alan tüm sistemlere uygulanan bu, bu, tek bir kişinin üretim-kritik ortamlara kalıcı bir şekilde erişmediği bir sistem tasarımı içerir; Bunun yerine, bir iş dünyasının gerekçesi olan bir iş arkadaşından zaman sınırlı erişim talep etmelidirler [8].
* Kullanıcı Güvenliği Özellikleri Bunlar arasında potansiyel olarak zararlı içeriği işaretlemek için algılama modelleri, istemlerde güvenlik filtreleri ve tekrar tekrar politikaları ihlal eden kullanıcılar için gelişmiş güvenlik filtreleri bulunur [7].
Antropik ayrıca istemlerde potansiyel olarak zararlı içeriği ve güvenlik filtrelerini işaretlemek için algılama modelleri kullanır [7]. Aktif olarak ek güvenlik özelliklerine yatırım yapıyor ve deniyorlar ve zararı azaltmak için araçlar sağlıyorlar ve kullanıcıları bu önlemler hakkında geri bildirim sağlamaya teşvik ediyorlar [7].
Alıntılar:
[1] https://myscale.com/blog/transformative-influence-antropic-a-fory-measures/
[2] https://www-cdn.antropic.com/1adf000c8f675958c2ee23805d91aaade1cd4613/responsible-scaling-policy.pdf
[3] https://www.anthropic.com/news/uk-a-fory-summit
[4] https://accelerationeconomy.com/ai/anthropic-leads-the-wor-in-a-fory-and-forformance/
[5] https://www.antropic.com/news/core-views-on-ai-forety
[6] https://engineeringideas.substack.com/p/comments-on-antropics-ai-forety
[7] https://support.anthropic.com/en/articles/8106465-our-uponch-to-user-safety
[8] https://www.antropic.com/news/frontier-model-security