GPT-4.5 Penilaian: Mitigasi CBRN dan Risiko Persuasi

Seberapa efektif GPT-4.5 dalam mengurangi risiko terkait dengan CBRN dan Persuasi

GPT-4.5 telah dinilai karena efektivitasnya dalam mengurangi risiko yang terkait dengan ancaman dan persuasi kimia, biologis, radiologis, dan nuklir (CBRN). Berikut adalah gambaran terperinci tentang kemampuan dan mitigasi:

CBRN berisiko

GPT-4.5 diklasifikasikan sebagai risiko menengah untuk ancaman CBRN. Klasifikasi ini didasarkan pada evaluasi yang menilai kemampuan model untuk membantu dalam perencanaan operasional mereproduksi ancaman biologis yang diketahui. Namun, risiko ini dianggap terbatas karena terutama para ahli AIDS yang sudah memiliki keahlian domain yang signifikan [1].

Untuk mengurangi risiko CBRN, GPT-4.5 menggunakan beberapa strategi:

- Mitigasi pra-pelatihan: Model menyaring data yang terkait dengan proliferasi CBRN yang memiliki penggunaan yang terbatas atau tidak ada yang sah. Ini membantu mengurangi paparan model terhadap informasi yang berpotensi berbahaya [1].
- Model Ketahanan: GPT-4.5 dirancang untuk menahan pengguna berbahaya dan permusuhan dengan meningkatkan kemampuannya untuk menahan manipulasi yang terkait dengan ancaman CBRN [1].
- Pemantauan dan Deteksi: Upaya khusus dilakukan untuk memantau dan mendeteksi kegiatan yang terkait dengan tugas CBRN, memastikan bahwa penyalahgunaan apa pun dengan cepat diidentifikasi dan ditangani [1].

Risiko Persuasi

GPT-4.5 juga membawa penunjukan risiko menengah untuk persuasi. Hal ini disebabkan oleh kinerja canggih dalam menghasilkan konten persuasif, yang dapat digunakan untuk memanipulasi keyakinan atau tindakan [2].

Untuk mengatasi risiko persuasi, GPT-4.5 menggabungkan mitigasi berikut:

- Pelatihan Keselamatan: Model ini mengalami pelatihan khusus untuk menangani tugas -tugas persuasi politik secara bertanggung jawab, yang bertujuan untuk mencegah penyalahgunaan untuk mempengaruhi atau memanipulasi opini publik [1].
- Pemantauan Pengaruh Operasi: Ada pemantauan dan penyelidikan yang diduga melakukan pelanggaran terkait dengan pengaruh operasi, ekstremisme, dan kegiatan politik yang tidak tepat. Ini membantu mengidentifikasi dan mengurangi risiko persuasi potensial [1].
- Mempertimbangkan penilaian persuasi: Openai mengevaluasi kembali pendekatannya untuk menilai risiko persuasi dunia nyata, berfokus pada faktor-faktor seperti personalisasi konten, distribusi, dan presentasi dari waktu ke waktu [2].

Secara keseluruhan, sementara GPT-4.5 menyajikan risiko menengah untuk CBRN dan persuasi, ia menggunakan serangkaian mitigasi yang kuat untuk meminimalkan risiko ini. Ini termasuk penyaringan lanjutan, pelatihan keselamatan, dan pemantauan berkelanjutan untuk memastikan model digunakan secara bertanggung jawab dan aman.

Kutipan:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://assets.ctfassets.net/kftzwdyauwt9/7eadv6oawhhxlaehuyu7db
[3] https://centerforhealthsecurity.org/sites/default/files/2024-06/2024-06-02-jhchs-nist-ai-6001-rfc.pdf
[4] https://model-pec.openai.com
[5] https://www.reddit.com/r/chatgpt/comments/1iznoek/gpt45_system_card_mmlu_896/
[6] https://pmc.ncbi.nlm.nih.gov/articles/pmc10795998/
[7] https://openai.com/index/gpt-4-5-system-card/
[8] https://patriciagestoso.com/2024/05/21/openai-ratgpt-4o-the-good-the-bad-and-the-irresponsible/