Bagaimana antropik memastikan keamanan model AI -nya

Antropik memastikan keamanan model AI -nya melalui berbagai teknik dan kebijakan, termasuk kebijakan penskalaan yang bertanggung jawab (RSP), tingkat keselamatan AI (ASL), filter keselamatan, dan model deteksi [2] [5]. Keselamatan pengguna adalah pusat dari misi antropik untuk membuat sistem AI yang dapat diandalkan, dapat ditafsirkan, dan dapat diatur [5].

Tindakan keamanan utama:
* Antropik Kebijakan Penskalaan yang Bertanggung Jawab (RSP) mengembangkan RSP untuk mengelola risiko yang terkait dengan model AI yang semakin mampu [2]. Kebijakan ini memperkenalkan kerangka kerja yang disebut AI Safety Level (ASL), menarik inspirasi dari standar tingkat hayati pemerintah AS (BSL) yang digunakan untuk menangani bahan biologis berbahaya [2] [7]. RSP telah disetujui secara resmi oleh dewan Antropik, dan setiap perubahan pada kebijakan tersebut juga harus disetujui oleh Dewan [2].
* AI Level Keselamatan (ASL) Kerangka kerja ASL dirancang untuk memastikan bahwa keselamatan, keamanan, dan standar operasional sesuai dengan potensi model untuk risiko bencana [2] [7]. Level ASL yang lebih tinggi menuntut demonstrasi keselamatan yang lebih ketat [2]. Kebijakan ini menyeimbangkan nilai ekonomi dan sosial AI dengan kebutuhan untuk mengurangi risiko parah, terutama risiko bencana yang dapat timbul dari perilaku penyalahgunaan yang disengaja atau tidak diinginkan oleh model itu sendiri [2].
* Filter Keselamatan Antropik menggunakan filter keselamatan pada petunjuk, yang dapat memblokir respons dari model ketika model deteksi mereka menandai konten yang berbahaya [5]. Mereka juga memiliki filter keselamatan yang ditingkatkan, yang memungkinkan mereka untuk meningkatkan sensitivitas model deteksi mereka [5]. Antropik sementara dapat menerapkan filter keselamatan yang ditingkatkan kepada pengguna yang berulang kali melanggar kebijakan mereka, dan menghapus kontrol ini setelah tidak ada atau sedikit pelanggaran [5].
* Model deteksi Antropik menggunakan model deteksi yang berpotensi menandai konten berbahaya berdasarkan kebijakan penggunaannya [5].

Perlindungan tambahan:
* Perlindungan Dasar Ini termasuk menyimpan ID yang ditautkan dengan setiap panggilan API untuk menunjukkan konten kekerasan tertentu dan menetapkan ID kepada pengguna untuk melacak individu yang melanggar antropik AUP [1]. Mereka juga memastikan pelanggan memahami penggunaan yang diizinkan dan mempertimbangkan untuk mengharuskan pelanggan untuk mendaftar untuk akun di platform mereka sebelum menggunakan Claude [1].
* Perlindungan menengah Antropik menciptakan kerangka kerja kustomisasi yang membatasi interaksi pengguna akhir dengan Claude ke serangkaian petunjuk terbatas atau hanya memungkinkan Claude untuk meninjau korpus pengetahuan tertentu, mengurangi kemampuan pengguna untuk terlibat dalam perilaku kekerasan [1]. Mereka juga memungkinkan filter keselamatan tambahan, yang merupakan alat moderasi real-time gratis yang dibangun oleh antropik untuk membantu mendeteksi petunjuk yang berpotensi berbahaya dan mengelola tindakan waktu-nyata untuk mengurangi kerusakan [1].
* Perlindungan lanjutan yang menjalankan API moderasi terhadap semua petunjuk pengguna akhir sebelum dikirim ke Claude memastikan mereka tidak berbahaya [1].
* Perlindungan komprehensif Antropik mengatur sistem tinjauan manusia internal untuk menandai petunjuk yang ditandai oleh Claude atau API moderasi sebagai berbahaya, sehingga mereka dapat campur tangan untuk membatasi atau menghapus pengguna dengan tingkat pelanggaran tinggi [1].

Antropik juga berkomitmen pada keandalan dan interpretabilitas sistem AI -nya, dicapai melalui penelitian yang ketat dan penerapan teknik keselamatan canggih [2]. Terobosan yang signifikan dalam interpretabilitas adalah penggunaan antropik dari autoencoder yang jarang untuk 'ekstraksi fitur monosemantik,' yang menyederhanakan jaringan saraf yang kompleks menjadi komponen yang dapat dimengerti [2].

Kutipan:
[1] https://support.anthropic.com/en/articles/9199617-api-trust-safety-tools
[2] https://klu.ai/glossary/anthropic-ai
[3] https://myscale.com/blog/transformative-pluence-anthropic-ai-safety-measures/
[4] https://www.anthropic.com/news/frontier-model-security
[5] https://support.anthropic.com/en/articles/8106465-our-approach-to-user-safety
[6] https://www.alignmentforum.org/posts/xhkr5ktvdjrssmej3/anthropic-s-core-views-on-ai-safety
[7] https://www.anthropic.com/news/anthropics-responsible-scaling-policy
[8] https://engineeringideas.substack.com/p/comments-on-anthropics-ai-safety
[9] https://www.youtube.com/watch?v=E6_X0ZOXVVI
[10] https://www.anthropic.com/news/core-views-on-ai-safety

Jawaban dari Perplexity: https://www.perplexity.ai/search/how-does-anthropic-ensure-the-.dwp39i9qu63n9c3qqw1va?utm_source=copy_output