Mengevaluasi Kinerja GPT-4.5 Melawan Perpanjangan Perselisihan dan Mekanisme Keselamatan

Bagaimana kinerja GPT-4.5 dalam skenario di mana pesan pengguna berusaha menipu model

Kinerja GPT-4.5 dalam skenario di mana pesan pengguna berupaya menipu model dievaluasi melalui beberapa penilaian, dengan fokus pada kemampuannya untuk menolak permintaan permusuhan dan mempertahankan standar keselamatan.

Evaluasi Keselamatan dan Jailbreaks

1. Evaluasi Jailbreak: Tes ini mengukur seberapa baik GPT-4.5 menolak upaya untuk menghindari mekanisme keamanannya. Model ini dievaluasi terhadap jailbreak yang bersumber dari manusia dan tolok ukur StrongRektject, yang menilai resistensi terhadap serangan permusuhan yang umum. GPT-4.5 berkinerja baik di jailbreak bersumber manusia, mencapai akurasi tinggi 0,99. Namun, dalam tolok ukur StrongRect, skor 0,34, yang sedikit lebih rendah dari skor GPT-4O1 0,87 [1].

2. Evaluasi Hirarki Instruksi: Untuk mengurangi serangan injeksi cepat, GPT-4.5 dilatih untuk mengikuti hierarki instruksi, memprioritaskan pesan sistem daripada pesan pengguna. Dalam evaluasi di mana konflik sistem dan pesan pengguna, GPT-4.5 umumnya berkinerja baik, dengan akurasi 0,76. Ini adalah peningkatan dari GPT-4O tetapi sedikit di bawah kinerja GPT-4O1 [1].

3. Tutor Jailbreaks: Dalam skenario di mana model diinstruksikan untuk tidak mengungkapkan jawaban atas pertanyaan matematika, GPT-4.5 menunjukkan keberhasilan moderat, dengan akurasi 0,77. Ini adalah peningkatan yang signifikan dibandingkan GPT-4O tetapi tidak setinggi kinerja GPT-4O1 [1].

4. Perlindungan frasa dan kata sandi: GPT-4.5 juga dievaluasi pada kemampuannya untuk melindungi frasa atau kata sandi tertentu agar tidak diungkapkan melalui pesan pengguna. Ini berkinerja baik dalam tes ini, dengan akurasi 0,86 untuk perlindungan frasa dan 0,92 untuk perlindungan kata sandi [1].

Evaluasi Tim Merah

GPT-4.5 mengalami evaluasi tim merah yang dirancang untuk menguji ketahanannya terhadap dorongan permusuhan. Evaluasi ini mencakup skenario seperti saran ilegal, ekstremisme, kejahatan rasial, persuasi politik, dan melukai diri sendiri. GPT-4.5 menghasilkan output yang aman di sekitar 51% dari set evaluasi tim merah pertama, sedikit lebih tinggi dari GPT-4O tetapi lebih rendah dari GPT-4O1. Dalam evaluasi kedua yang berfokus pada saran berisiko, GPT-4.5 berkinerja lebih baik daripada GPT-4O tetapi tidak serta model penelitian GPT-4O1 atau Deep [1].

kinerja keseluruhan

Sementara GPT-4.5 menunjukkan peningkatan dalam menangani permintaan sensitif dan permusuhan dibandingkan dengan model sebelumnya, masih menghadapi tantangan dalam skenario yang sangat permusuhan. Kinerja solid untuk tugas-tugas tujuan umum tetapi mungkin tidak optimal untuk tugas pemecahan masalah atau pengkodean yang dalam dibandingkan dengan model khusus seperti O3-Mini [3] [5].

Singkatnya, GPT-4.5 menunjukkan ketahanan terhadap upaya untuk menipu, terutama dalam skenario di mana ia harus memprioritaskan instruksi sistem daripada input pengguna. Namun, masih memiliki keterbatasan dalam konteks yang sangat permusuhan, mencerminkan tantangan yang berkelanjutan dalam menyeimbangkan keselamatan dan fungsionalitas dalam model AI.

Kutipan:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://platform.openai.com/docs/guides/prompt-engineering
[3] https://www.vellum.ai/blog/gpt-4-5-is-heere-heres-how-good-this-model-is
[4] https://www.reddit.com/r/openai/comments/18monbs/gpt_4_has_been_toned_down_significly_and/
[5] https://www.reddit.com/r/singularity/comments/1izn175/openai_gpt45_system_card/
[6] https://mashable.com/article/openai-gpt-4-5-release-how-tober- try
[7] https://www.reddit.com/r/openai/comments/1iznny5/openai_gpt45_system_card/
[8] https://www.youtube.com/watch?v=0KBAS3S5RYW