Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon Bagaimana GPT-4.5 menangani instruksi yang bertentangan antara sistem dan pesan pengguna


Bagaimana GPT-4.5 menangani instruksi yang bertentangan antara sistem dan pesan pengguna


GPT-4.5 dirancang untuk menangani instruksi yang bertentangan antara sistem dan pesan pengguna melalui hierarki instruksi. Hirarki ini membantu model memprioritaskan pesan sistem daripada pesan pengguna untuk mengurangi risiko yang terkait dengan petunjuk yang bertentangan, seperti suntikan prompt atau serangan lain yang mungkin mengganti instruksi keselamatan model.

Fitur utama dari hierarki instruksi

1. Klasifikasi Pesan: GPT-4.5 Membedakan antara dua jenis pesan: pesan sistem dan pesan pengguna. Pesan sistem dianggap otoritas yang lebih tinggi dan digunakan untuk menetapkan pedoman keselamatan atau instruksi spesifik untuk model.

2. Resolusi Konflik: Ketika Konflik Sistem dan Pengguna Konflik, GPT-4.5 dilatih untuk mengikuti instruksi dalam pesan sistem. Ini memastikan bahwa model tersebut mematuhi pedoman keselamatan dan tidak terlibat dalam kegiatan yang berbahaya atau tidak diizinkan.

3. Evaluasi dan Pelatihan: Model ini dievaluasi pada kemampuannya untuk menangani konflik melalui berbagai skenario. Misalnya, dalam skenario di mana model diinstruksikan untuk tidak memberikan jawaban untuk masalah matematika (pesan sistem), dan pengguna mencoba menipu untuk melakukannya (pesan pengguna), GPT-4.5 harus menolak upaya pengguna dan mengikuti instruksi sistem.

4. Kinerja: GPT-4.5 umumnya berkinerja baik dalam evaluasi ini, menunjukkan peningkatan dari model sebelumnya seperti GPT-4O dalam menangani konflik pesan pengguna-pengguna. Namun, ada skenario spesifik di mana ia mungkin tidak melakukan serta GPT-4O atau GPT-4O1, seperti dalam tes jailbreak tertentu di mana ia ditipu untuk mengungkapkan informasi yang seharusnya tidak [1] [7].

Evaluasi keselamatan ###

GPT-4.5 menjalani evaluasi keselamatan yang ketat untuk memastikan itu tidak menghasilkan konten yang tidak diizinkan, seperti nasihat kebencian atau ilegal. Evaluasi -evaluasi ini juga menilai kecenderungan model untuk menghilangkan rasa dorongan jinak yang terkait dengan topik keselamatan. Kinerja model di bidang ini sangat penting untuk menjaga keamanan dan keandalannya saat menangani instruksi yang bertentangan [1].

Tingkat spesifikasi dan otoritas model ###

Spesifikasi model menguraikan tingkat otoritas untuk berbagai jenis instruksi, dengan instruksi tingkat platform yang memiliki otoritas tertinggi, diikuti oleh pengembang dan instruksi pengguna. Hirarki ini memastikan bahwa GPT-4.5 memprioritaskan keselamatan dan mematuhi pedoman sambil tetap memungkinkan penyesuaian oleh pengguna dan pengembang dalam batasan yang ditetapkan [2] [5].

Secara keseluruhan, kemampuan GPT-4.5 untuk menangani instruksi yang bertentangan adalah aspek kunci dari desainnya, memastikan bahwa ia mempertahankan keamanan dan integritas saat berinteraksi dengan pengguna.

Kutipan:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://model-pec.openai.com
[3] https://community.openai.com/t/how-to-deal-with-lazy-gpt-4/689286
[4] https://arxiv.org/html/2408.10943v1
[5] https://bgr.com/tech/chatgpt-ai-will-finalally-start-covering-controverssial-topics/
[6] https://fortune.com/2025/02/14/sam-altman-openai-plans-gpt-5-release-timelines/
[7] https://www.reddit.com/r/singularity/comments/1izn175/openai_gpt45_system_card/
[8] https://www.reddit.com/r/openai/comments/197exmm/gpt4_has_only_been_getting_worse/