GPT-4.5: Peningkatan kinerja dalam menangani instruksi yang bertentangan

Bagaimana kinerja GPT-4.5 dibandingkan dengan versi sebelumnya dalam menangani instruksi yang bertentangan

GPT-4.5 menunjukkan peningkatan kinerja dalam menangani instruksi yang bertentangan dibandingkan dengan versi sebelumnya, terutama melalui peningkatan hierarki instruksi. Fitur ini memungkinkan model untuk memprioritaskan pesan sistem daripada input pengguna, mengurangi risiko yang terkait dengan suntikan cepat dan serangan lain yang mungkin mengganti instruksi keselamatan.

Dalam evaluasi yang melibatkan jenis pesan yang bertentangan, GPT-4.5 umumnya mengungguli GPT-4O. Model ini dilatih untuk mengikuti instruksi dalam pesan prioritas tertinggi, yang membantu dalam skenario di mana sistem dan pesan pengguna bertentangan. Misalnya, dalam skenario di mana model diinstruksikan untuk tidak memberikan jawaban untuk pertanyaan matematika, GPT-4.5 menunjukkan kepatuhan yang lebih baik terhadap instruksi sistem ini dibandingkan dengan GPT-4O, meskipun tidak melampaui GPT-4O1 di semua evaluasi [1].

Selain itu, GPT-4.5 telah dievaluasi dalam skenario di mana ia harus melindungi frasa atau kata sandi tertentu agar tidak diungkapkan melalui petunjuk pengguna. Dalam evaluasi ini, GPT-4.5 berkinerja baik, menunjukkan kemampuannya untuk menjaga keamanan dan mengikuti instruksi sistem bahkan ketika dihadapkan dengan input pengguna yang bertentangan [1].

Namun, sementara GPT-4.5 meningkatkan model sebelumnya dalam menangani instruksi yang bertentangan, itu masih menghadapi tantangan dalam skenario kompleks tertentu. Kinerja model dalam evaluasi tim merah, yang mensimulasikan dorongan permusuhan, menunjukkan bahwa itu dapat menghasilkan output yang tidak aman dalam beberapa kasus, meskipun umumnya berkinerja lebih baik daripada GPT-4O dalam tes yang menantang ini [1].

Secara keseluruhan, peningkatan GPT-4.5 dalam menangani instruksi yang bertentangan menjadikannya pilihan yang lebih andal untuk aplikasi yang membutuhkan kepatuhan yang ketat terhadap pedoman keselamatan dan instruksi sistem.

Kutipan:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://gettalkative.com/info/gpt-odels-compared
[3] https://www.vellum.ai/blog/gpt-4-5-is-heere-heres-how-good-this-model-is
[4] https://www.techtarget.com/searchenterpriseai/tip/gpt-35-vs-gpt-4-biggest-differences-to-consider
[5] https://www.reddit.com/r/singularity/comments/1izn175/openai_gpt45_system_card/
[6] https://www.reddit.com/r/openai/comments/18monbs/gpt_4_has_been_toned_down_significly_and/
[7] https://www.theverge.com/news/620021/openai-gpt-4-5-orion-ai-model-release
[8] https://www.axios.com/2025/02/27/chatgpt-45-model-openai-rasasing