Antropik, sorumlu ölçeklendirme politikası (RSP), AI güvenlik seviyeleri (ASL), güvenlik filtreleri ve algılama modelleri dahil olmak üzere çeşitli teknikler ve politikalar yoluyla AI modellerinin güvenliğini sağlar [2] [5]. Kullanıcı güvenliği, Antropic'in güvenilir, yorumlanabilir ve yönlendirilebilir AI sistemleri yaratma misyonunun merkezinde yer almaktadır [5].
Anahtar güvenlik önlemleri:
* Sorumlu ölçeklendirme politikası (RSP) Antropik, giderek daha fazla yetenekli AI modellerine bağlı riskleri yönetmek için RSP'yi geliştirdi [2]. Politika, ABD hükümetinin tehlikeli biyolojik materyallerin işlenmesi için kullanılan biyogüvenlik seviyesi (BSL) standartlarından ilham alarak AI Güvenlik Düzeyleri (ASL) adı verilen bir çerçeve getirmektedir [2] [7]. RSP, Antropik Kurulu tarafından resmi olarak onaylanmıştır ve politikadaki herhangi bir değişiklik de Kurul tarafından onaylanmalıdır [2].
* AI Güvenlik Düzeyleri (ASL) ASL çerçevesi, güvenlik, emniyet ve operasyonel standartların bir modelin felaket risk potansiyeline uygun olmasını sağlamak için tasarlanmıştır [2] [7]. Daha yüksek ASL seviyeleri daha katı güvenlik gösterileri gerektirir [2]. Politika, yapay zekanın ekonomik ve sosyal değerini, özellikle modellerin kendileri tarafından kasıtlı olarak kötüye kullanımdan veya istenmeyen yıkıcı davranışlardan kaynaklanabilecek felaket risklerini azaltma ihtiyacı ile dengeler [2].
* Güvenlik filtreleri Antropik, taleplerde güvenlik filtreleri kullanır, bu da algılama modelleri içeriği zararlı olarak işaretlediğinde modelden yanıtları engelleyebilir [5]. Ayrıca, algılama modellerinin hassasiyetini artırmalarını sağlayan gelişmiş güvenlik filtreleri vardır [5]. Antropik, politikalarını tekrar tekrar ihlal eden kullanıcılara geçici olarak geliştirilmiş güvenlik filtreleri uygulayabilir ve bu kontrolleri yok veya az bir ihlal döneminden sonra kaldırabilir [5].
* Tespit modelleri Antropik, kullanım politikalarına göre potansiyel olarak zararlı içeriği işaretleyen tespit modellerini kullanır [5].
Ek Korumalar:
* Temel Korumalar Bunlar, her API çağrısıyla bağlantılı kimliklerin belirli ihlal içeriğini belirlemek ve antropiklerin AUP'u ihlal eden bireyleri izlemek için kullanıcılara kimlik atamasını içerir [1]. Ayrıca, müşterilerin izin verilen kullanımları anlamalarını ve müşterilerin Claude [1] kullanmadan önce platformlarında bir hesap için kaydolmalarını gerektirmesini sağlar.
* Ara korumalar Antropik, Claude ile son kullanıcı etkileşimlerini sınırlı bir dizi istemle sınırlayan veya sadece Claude'un belirli bir bilgi cesetini gözden geçirmesine izin vererek kullanıcıların ihlal edici davranışlarda bulunma yeteneğini azaltan özelleştirme çerçeveleri oluşturur [1]. Ayrıca, antropik tarafından tasarlanan ücretsiz gerçek zamanlı ılımlı takım olan ve potansiyel olarak zararlı istemleri tespit etmeye ve zararı azaltmak için gerçek zamanlı eylemlerin yönetilmesine yardımcı olmak için ek güvenlik filtreleri olanak sağlarlar [1].
* Claude'a gönderilmeden önce tüm son kullanıcı istemlerine karşı bir ılımlılık API'sını çalıştıran gelişmiş önlemler, zararlı olmamalarını sağlar [1].
* Kapsamlı korumalar Antropik, Claude veya ılımlı bir API tarafından işaretlenen istemleri zararlı olarak işaretlemek için bir dahili insan inceleme sistemi kurar, böylece yüksek ihlal oranlarına sahip kullanıcıları kısıtlamak veya kaldırmak için müdahale edebilirler [1].
Antropik, titiz araştırmalar ve ileri güvenlik tekniklerinin uygulanması yoluyla elde edilen AI sistemlerinin güvenilirliğine ve yorumlanabilirliğine de bağlıdır [2]. Yorumlanabilirlikte önemli bir atılım, antropikin karmaşık sinir ağlarını anlaşılabilir bileşenlere basitleştiren 'monosemantik özellik çıkarma' için seyrek otomatik kodlayıcıları kullanmasıdır [2].
Alıntılar:
[1] https://support.antropic.com/en/articles/9199617-api-trust-fory-tools
[2] https://klu.ai/glossary/anthropic-ai
[3] https://myscale.com/blog/transformative-influence-antropic-a-fory-measures/
[4] https://www.anthropic.com/news/frontier-model-security
[5] https://support.anthropic.com/en/articles/8106465-our-upheroch-to-user-safety
[6] https://www.alignmentforum.org/posts/xhkr5ktvdjrssmej3/anthropic-s-core-views-on-ai-forety
[7] https://www.anthropic.com/news/anthropics-pressessible-scaling-policy
[8] https://engineeringideas.substack.com/p/comments-on-antropics-ai-forety
[9] https://www.youtube.com/watch?v=e6_x0zoxvvi
[10] https://www.antropic.com/news/core-views-on-ai-forety