Bagaimana GPT-4.5 Menangani pesan yang bertentangan dengan hierarki instruksi dan penyesuaian

Teknik spesifik apa yang digunakan GPT-4.5 untuk menangani pesan yang bertentangan

GPT-4.5 menggunakan beberapa teknik untuk menangani pesan yang bertentangan, terutama melalui sistem hirarki instruksi. Hirarki ini menetapkan urutan prioritas untuk pesan, memastikan bahwa pesan sistem diprioritaskan daripada pesan pengguna, riwayat percakapan, dan output alat [1] [2].

Hierarki Instruksi ###

1. Pesan Sistem vs. Pesan Pengguna: GPT-4.5 dilatih untuk mengikuti instruksi dalam pesan sistem atas pesan pengguna yang bertentangan. Ini sangat penting dalam skenario di mana input pengguna mungkin berusaha untuk mengganti pedoman keselamatan atau peraturan pemformatan yang ditetapkan oleh sistem [1] [2].

2. Resolusi Konflik: Model ini dievaluasi pada kemampuannya untuk menyelesaikan konflik antara berbagai jenis pesan. Misalnya, jika pesan sistem menginstruksikan model untuk tidak mengungkapkan frasa atau kata sandi tertentu, dan pesan pengguna mencoba menipu model agar melakukannya, GPT-4.5 dirancang untuk mematuhi instruksi pesan sistem [1].

3. Pelatihan dan Evaluasi: GPT-4.5 menjalani pelatihan dan evaluasi yang luas untuk memastikannya dapat menangani skenario kompleks di mana sistem dan pesan pengguna konflik. Ini termasuk skenario di mana model harus memilih antara mengikuti instruksi sistem atau permintaan pengguna yang bertentangan [1] [2].

Fine-tuning yang diawasi (SFT)

GPT-4.5 juga menggunakan fine-tuning (SFT) yang diawasi, yang melibatkan pelatihan model pada contoh-contoh spesifik di mana pesan yang bertentangan hadir. Teknik ini membantu meningkatkan kemampuan model untuk mengenali dan memprioritaskan instruksi sistem daripada input pengguna, meningkatkan kinerjanya dalam menangani skenario yang bertentangan [3].

Teknik Alignment Baru

Selain itu, GPT-4.5 menggabungkan teknik penyelarasan baru yang meningkatkan pemahamannya tentang preferensi dan niat manusia. Teknik -teknik ini membantu model menafsirkan konteks dan niat di balik sistem dan pesan pengguna dengan lebih baik, yang memungkinkannya membuat keputusan yang lebih tepat ketika menangani konflik [5].

Secara keseluruhan, pendekatan GPT-4.5 untuk menangani pesan yang bertentangan menggabungkan metode pelatihan lanjutan dengan hierarki instruksi terstruktur untuk memastikan bahwa model memprioritaskan keselamatan dan kepatuhan terhadap pedoman sistem.

Kutipan:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://arxiv.org/html/2502.08745v1
[3] https://www.vellum.ai/blog/gpt-4-5-is-heere-heres-how-good-this-model-is
[4] https://community.openai.com/t/how-to-improve-gpt-4-api-output-length-and-struktur/1025132
[5] https://ventureBeat.com/ai/openai-releases-gpt-4-5/
[6] https://community.openai.com/t/how-to-deal-with-lazy-gpt-4/689286
[7] https://openai.com/index/introducing-gpt-4-5/
[8] https://www.reddit.com/r/openai/comments/18monbs/gpt_4_has_been_toned_down_significly_and/