Peningkatan GPT-4.5 dalam menangani instruksi yang bertentangan dan peningkatan keselamatan

Bagaimana kinerja GPT-4.5 dibandingkan dengan versi sebelumnya dalam menangani instruksi yang bertentangan

GPT-4.5 menunjukkan peningkatan kinerja dalam menangani instruksi yang bertentangan dibandingkan dengan versi sebelumnya, terutama melalui peningkatan kepatuhan terhadap hierarki instruksi. Hirarki ini memungkinkan model untuk memprioritaskan pesan sistem daripada input pengguna, mengurangi risiko dari petunjuk yang bertentangan. Dalam evaluasi, GPT-4.5 umumnya mengungguli GPT-4O dalam skenario di mana sistem dan pesan pengguna konflik, menunjukkan kemampuan yang lebih baik untuk mengikuti instruksi keselamatan dan menghindari ditipu oleh petunjuk permusuhan [1] [5].

Perbaikan utama dalam menangani instruksi yang bertentangan

1. Evaluasi Hirarki Instruksi: GPT-4.5 menunjukkan akurasi yang lebih baik dalam instruksi sistem berikut melalui pesan pengguna. Misalnya, dalam skenario di mana model diinstruksikan untuk tidak memberikan jawaban untuk pertanyaan matematika, GPT-4.5 berkinerja lebih baik daripada GPT-4O, meskipun tidak serta GPT-4O1 [1].

2. Mitigasi suntikan cepat: Dengan memprioritaskan pesan sistem, GPT-4.5 mengurangi risiko suntikan cepat dan serangan lain yang dapat mengesampingkan instruksi keselamatannya. Ini sangat penting untuk mempertahankan integritas model dan mencegah penyalahgunaan [1] [5].

3. Skenario realistis: Dalam skenario yang lebih realistis, seperti ketika bertindak sebagai tutor matematika, GPT-4.5 lebih baik dalam menolak upaya untuk menipu agar memberikan informasi yang tidak sah. Namun, kinerjanya tidak sempurna dan dapat bervariasi tergantung pada konteks dan instruksi spesifik yang diberikan [1].

4. Evaluasi Keselamatan: GPT-4.5 menjalani evaluasi keselamatan yang ketat untuk memastikan tidak memenuhi permintaan konten berbahaya. Sementara itu berkinerja baik dalam menolak konten yang tidak aman, itu mungkin lebih sering mereferayakan lebih dari model sebelumnya, menunjukkan pendekatan yang hati -hati untuk menangani permintaan yang ambigu atau berpotensi berisiko [1].

Secara keseluruhan, GPT-4.5 menawarkan peningkatan yang signifikan dalam menangani instruksi yang bertentangan dengan mematuhi pedoman sistem lebih dekat dan mengurangi dampak input pengguna permusuhan. Namun, seperti semua model AI, itu tidak kebal terhadap semua bentuk manipulasi dan terus berkembang dengan evaluasi keamanan dan pembaruan yang berkelanjutan [1] [5].

Kutipan:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://gettalkative.com/info/gpt-odels-compared
[3] https://www.vellum.ai/blog/gpt-4-5-is-heere-heres-how-good-this-model-is
[4] https://www.techtarget.com/searchenterpriseai/tip/gpt-35-vs-gpt-4-biggest-differences-to-consider
[5] https://www.reddit.com/r/singularity/comments/1izn175/openai_gpt45_system_card/
[6] https://www.reddit.com/r/openai/comments/18monbs/gpt_4_has_been_toned_down_significly_and/
[7] https://www.theverge.com/news/620021/openai-gpt-4-5-orion-ai-model-release
[8] https://www.axios.com/2025/02/27/chatgpt-45-model-openai-rasasing