Antropik memastikan keamanan dan keandalan AI melalui beberapa langkah, termasuk pengujian stres, protokol keselamatan, dan kebijakan penskalaan yang bertanggung jawab [1]. Mereka menggunakan AI Safety Level (ASL), yang dimodelkan setelah tingkat hayati, untuk menentukan langkah -langkah keamanan berdasarkan risiko potensial [2] [3].
Komponen utama dari pendekatan keselamatan antropik:
* Antropik Kebijakan Penskalaan yang Bertanggung Jawab (RSP) menggunakan sistem tingkat keselamatan AI (ASL) [3]. Jika sistem AI menunjukkan kemampuan berbahaya tertentu, antropik berkomitmen untuk tidak menggunakannya atau melatih model yang lebih kuat sampai perlindungan spesifik diimplementasikan [3].
* Sering pengujian tes antropik untuk kemampuan berbahaya secara berkala untuk memastikan bahwa kemampuan berbahaya tidak dibuat tanpa sadar [3].
* Evaluasi model yang dirancang untuk mendeteksi kemampuan berbahaya, evaluasi ini bertindak sebagai "tanda peringatan" konservatif untuk mencegah secara tidak sengaja melebihi ambang keamanan kritis [2]. Evaluasi dapat terdiri dari beberapa tahap kesulitan, di mana tahap selanjutnya dijalankan hanya jika evaluasi sebelumnya menunjukkan tanda -tanda peringatan [2].
* Komitmen Prosedural ASLS menentukan apa yang harus benar dari model dan keamanan antropik untuk memungkinkan pelatihan dan penyebaran yang aman [2].
* Pemantauan dan Penebangan: Untuk penggunaan internal, output yang dihasilkan dan input yang sesuai dicatat dan disimpan selama setidaknya 30 hari. Log -log ini dipantau untuk aktivitas abnormal, dan alarm dianggap serius dan merespons segera [2].
* Tiered Access: In limited cases, models with capabilities relevant to catastrophic harm may be available to a select group of vetted users with a legitimate and beneficial use-case that cannot be separated from dangerous capabilities, provided that access can be granted safely and with Pengawasan yang cukup [2].
* Pengungkapan kerentanan dan insiden: Antropik terlibat dalam proses pengungkapan kerentanan dan insiden dengan laboratorium lain (tunduk pada kendala keamanan atau hukum) yang mencakup hasil tim merah, ancaman keamanan nasional, dan ancaman replikasi otonom [2].
* Respon cepat terhadap kerentanan model: Ketika diinformasikan tentang kerentanan model yang baru ditemukan yang memungkinkan bahaya bencana, antropik berkomitmen untuk mengurangi atau menambalnya segera [2].
* Kontrol dua partai: diterapkan pada semua sistem yang terlibat dalam pengembangan, pelatihan, hosting, dan penyebaran model AI perbatasan, ini melibatkan desain sistem di mana tidak ada orang tunggal yang memiliki akses yang terus-menerus ke lingkungan yang kritis terhadap produksi; Sebaliknya, mereka harus meminta akses terbatas waktu dari rekan kerja dengan pembenaran bisnis [8].
* Fitur Keselamatan Pengguna Ini termasuk model deteksi untuk menandai konten yang berpotensi berbahaya, filter keselamatan pada petunjuk, dan filter keselamatan yang ditingkatkan untuk pengguna yang berulang kali melanggar kebijakan [7].
Antropik juga menggunakan model deteksi untuk menandai konten yang berpotensi berbahaya dan filter keselamatan pada petunjuk [7]. Mereka secara aktif berinvestasi dan bereksperimen dengan fitur keselamatan tambahan dan menyediakan alat untuk mengurangi bahaya, dan mereka mendorong pengguna untuk memberikan umpan balik tentang langkah -langkah ini [7].
Kutipan:
[1] https://myscale.com/blog/transformative-pluence-anthropic-ai-safety-measures/
[2] https://www-cdn.anthropic.com/1adf000c8f675958c2ee23805d91aaade1cd4613/responsible-scaling-policy.pdf
[3] https://www.anthropic.com/news/uk-ai-safety-summit
[4] https://accelerationeconomy.com/ai/anthropic-leads-the-charge-in-ai-safety-and-performance/
[5] https://www.anthropic.com/news/core-views-on-ai-safety
[6] https://engineeringideas.substack.com/p/comments-on-anthropics-ai-afety
[7] https://support.anthropic.com/en/articles/8106465-our-approach-to-user-safety
[8] https://www.anthropic.com/news/frontier-model-security