Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon Bagaimana antropik memastikan keamanan dan reliabilitas model AI hibridanya


Bagaimana antropik memastikan keamanan dan reliabilitas model AI hibridanya


Antropik memastikan keamanan dan keandalan AI melalui beberapa langkah, termasuk pengujian stres, protokol keselamatan, dan kebijakan penskalaan yang bertanggung jawab [1]. Mereka menggunakan AI Safety Level (ASL), yang dimodelkan setelah tingkat hayati, untuk menentukan langkah -langkah keamanan berdasarkan risiko potensial [2] [3].

Komponen utama dari pendekatan keselamatan antropik:
* Antropik Kebijakan Penskalaan yang Bertanggung Jawab (RSP) menggunakan sistem tingkat keselamatan AI (ASL) [3]. Jika sistem AI menunjukkan kemampuan berbahaya tertentu, antropik berkomitmen untuk tidak menggunakannya atau melatih model yang lebih kuat sampai perlindungan spesifik diimplementasikan [3].
* Sering pengujian tes antropik untuk kemampuan berbahaya secara berkala untuk memastikan bahwa kemampuan berbahaya tidak dibuat tanpa sadar [3].
* Evaluasi model yang dirancang untuk mendeteksi kemampuan berbahaya, evaluasi ini bertindak sebagai "tanda peringatan" konservatif untuk mencegah secara tidak sengaja melebihi ambang keamanan kritis [2]. Evaluasi dapat terdiri dari beberapa tahap kesulitan, di mana tahap selanjutnya dijalankan hanya jika evaluasi sebelumnya menunjukkan tanda -tanda peringatan [2].
* Komitmen Prosedural ASLS menentukan apa yang harus benar dari model dan keamanan antropik untuk memungkinkan pelatihan dan penyebaran yang aman [2].
* Pemantauan dan Penebangan: Untuk penggunaan internal, output yang dihasilkan dan input yang sesuai dicatat dan disimpan selama setidaknya 30 hari. Log -log ini dipantau untuk aktivitas abnormal, dan alarm dianggap serius dan merespons segera [2].
* Tiered Access: In limited cases, models with capabilities relevant to catastrophic harm may be available to a select group of vetted users with a legitimate and beneficial use-case that cannot be separated from dangerous capabilities, provided that access can be granted safely and with Pengawasan yang cukup [2].
* Pengungkapan kerentanan dan insiden: Antropik terlibat dalam proses pengungkapan kerentanan dan insiden dengan laboratorium lain (tunduk pada kendala keamanan atau hukum) yang mencakup hasil tim merah, ancaman keamanan nasional, dan ancaman replikasi otonom [2].
* Respon cepat terhadap kerentanan model: Ketika diinformasikan tentang kerentanan model yang baru ditemukan yang memungkinkan bahaya bencana, antropik berkomitmen untuk mengurangi atau menambalnya segera [2].
* Kontrol dua partai: diterapkan pada semua sistem yang terlibat dalam pengembangan, pelatihan, hosting, dan penyebaran model AI perbatasan, ini melibatkan desain sistem di mana tidak ada orang tunggal yang memiliki akses yang terus-menerus ke lingkungan yang kritis terhadap produksi; Sebaliknya, mereka harus meminta akses terbatas waktu dari rekan kerja dengan pembenaran bisnis [8].
* Fitur Keselamatan Pengguna Ini termasuk model deteksi untuk menandai konten yang berpotensi berbahaya, filter keselamatan pada petunjuk, dan filter keselamatan yang ditingkatkan untuk pengguna yang berulang kali melanggar kebijakan [7].

Antropik juga menggunakan model deteksi untuk menandai konten yang berpotensi berbahaya dan filter keselamatan pada petunjuk [7]. Mereka secara aktif berinvestasi dan bereksperimen dengan fitur keselamatan tambahan dan menyediakan alat untuk mengurangi bahaya, dan mereka mendorong pengguna untuk memberikan umpan balik tentang langkah -langkah ini [7].

Kutipan:
[1] https://myscale.com/blog/transformative-pluence-anthropic-ai-safety-measures/
[2] https://www-cdn.anthropic.com/1adf000c8f675958c2ee23805d91aaade1cd4613/responsible-scaling-policy.pdf
[3] https://www.anthropic.com/news/uk-ai-safety-summit
[4] https://accelerationeconomy.com/ai/anthropic-leads-the-charge-in-ai-safety-and-performance/
[5] https://www.anthropic.com/news/core-views-on-ai-safety
[6] https://engineeringideas.substack.com/p/comments-on-anthropics-ai-afety
[7] https://support.anthropic.com/en/articles/8106465-our-approach-to-user-safety
[8] https://www.anthropic.com/news/frontier-model-security

Jawaban dari Perplexity: https://www.perplexity.ai/search/how-does-anthropic-ensure-the-z927kvgrtc2t99qtutgsza?utm_source=copy_output