Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon Antropik, hibrit AI modelinin güvenliğini ve güvenilirliğini nasıl sağlar?


Antropik, hibrit AI modelinin güvenliğini ve güvenilirliğini nasıl sağlar?


Antropik, stres testi, güvenlik protokolleri ve sorumlu bir ölçeklendirme politikası dahil olmak üzere çeşitli önlemler yoluyla AI güvenlik ve güvenilirliği sağlar [1]. Potansiyel risklere dayalı güvenlik önlemlerini belirlemek için biyogüvenlik seviyelerinden sonra modellenen AI güvenlik seviyelerini (ASL) kullanırlar [2] [3].

Antropik güvenlik yaklaşımının temel bileşenleri:
* Sorumlu ölçeklendirme politikası (RSP) Antropik bir AI güvenlik seviyesi (ASL) sistemini kullanır [3]. Bir AI sistemi belirli tehlikeli yetenekleri gösterirse, antropik, belirli önlemler uygulanana kadar onu dağıtmamak veya daha güçlü modeller eğitmek için taahhüt eder [3].
* Tehlikeli yeteneklerin bilmeden yaratılmamasını sağlamak için düzenli aralıklarla tehlikeli yetenekler için sık sık test edilen antropik testler.
* Model Değerlendirmeleri Tehlikeli yetenekleri tespit etmek için tasarlanan bu değerlendirmeler, kritik güvenlik eşiklerini yanlışlıkla aşmayı önlemek için muhafazakar "uyarı işaretleri" olarak işlev görür [2]. Değerlendirmeler, daha sonraki aşamaların yalnızca daha önceki değerlendirmeler uyarı işaretleri göstermesi durumunda yürütüldüğü birden fazla zorluk aşamasından oluşabilir [2].
* Prosedürel taahhütler ASL'ler, güvenli eğitim ve konuşlandırmaya izin vermek için antropik modeller ve güvenlik için neyin doğru olması gerektiğini belirtir [2].
* İzleme ve günlüğe kaydetme: Dahili kullanım için üretilen çıkışlar ve karşılık gelen girişler en az 30 gün boyunca kaydedilir ve tutulur. Bu kütükler anormal aktivite için izlenir ve alarmlar ciddiye alınır ve derhal yanıtlanır [2].
* Katmanlı Erişim: Sınırlı durumlarda, erişimin güvenli ve ile verilebilmesi koşuluyla, tehlikeli yeteneklerden ayrılamayan meşru ve faydalı bir kullanım-duruma sahip belirli bir grup veteriner kullanıcı grubu için katastrofik zararla ilgili yeteneklere sahip modeller mevcut olabilir. yeterli gözetim [2].
* Güvenlik açığı ve olay açıklaması: Antropik, kırmızı takım sonuçlarını, ulusal güvenlik tehditlerini ve otonom çoğaltma tehditlerini kapsayan diğer laboratuvarlarla (güvenlik veya yasal kısıtlamalara tabi) bir güvenlik açığı ve olay ifşa sürecine girer [2].
* Model güvenlik açıklarına hızlı tepki: Katastrofik zarar veren yeni keşfedilen bir model güvenlik açığı hakkında bilgilendirildiğinde, antropik bir şekilde hafifletmek veya yamayı taahhüt eder [2].
* İki taraflı kontrol: Frontier AI modellerinin geliştirilmesi, eğitimi, barındırma ve dağıtımında yer alan tüm sistemlere uygulanan bu, bu, tek bir kişinin üretim-kritik ortamlara kalıcı bir şekilde erişmediği bir sistem tasarımı içerir; Bunun yerine, bir iş dünyasının gerekçesi olan bir iş arkadaşından zaman sınırlı erişim talep etmelidirler [8].
* Kullanıcı Güvenliği Özellikleri Bunlar arasında potansiyel olarak zararlı içeriği işaretlemek için algılama modelleri, istemlerde güvenlik filtreleri ve tekrar tekrar politikaları ihlal eden kullanıcılar için gelişmiş güvenlik filtreleri bulunur [7].

Antropik ayrıca istemlerde potansiyel olarak zararlı içeriği ve güvenlik filtrelerini işaretlemek için algılama modelleri kullanır [7]. Aktif olarak ek güvenlik özelliklerine yatırım yapıyor ve deniyorlar ve zararı azaltmak için araçlar sağlıyorlar ve kullanıcıları bu önlemler hakkında geri bildirim sağlamaya teşvik ediyorlar [7].

Alıntılar:
[1] https://myscale.com/blog/transformative-influence-antropic-a-fory-measures/
[2] https://www-cdn.antropic.com/1adf000c8f675958c2ee23805d91aaade1cd4613/responsible-scaling-policy.pdf
[3] https://www.anthropic.com/news/uk-a-fory-summit
[4] https://accelerationeconomy.com/ai/anthropic-leads-the-wor-in-a-fory-and-forformance/
[5] https://www.antropic.com/news/core-views-on-ai-forety
[6] https://engineeringideas.substack.com/p/comments-on-antropics-ai-forety
[7] https://support.anthropic.com/en/articles/8106465-our-uponch-to-user-safety
[8] https://www.antropic.com/news/frontier-model-security

Düşünceden cevap: https://www.perplexity.ai/search/how-does-antropic-ensure-the-z927kvgrtc2t9qtutgsza?utm_source=copy_output