Memahami Hirarki Instruksi GPT-4.5 untuk mengurangi risiko injeksi cepat

Bagaimana hierarki instruksi GPT-4.5 mengurangi risiko suntikan yang cepat

Hirarki instruksi GPT-4.5 dirancang untuk mengurangi risiko suntikan yang cepat dengan menetapkan urutan prioritas yang jelas untuk berbagai jenis instruksi. Hirarki ini memastikan bahwa pesan sistem, yang ditetapkan oleh pengembang, lebih diutamakan daripada pesan pengguna dan input lainnya. Begini cara kerjanya dan bagaimana cara membantu mencegah serangan injeksi yang cepat:

Memahami suntikan cepat

Serangan injeksi yang cepat terjadi ketika pengguna berbahaya memanipulasi model AI dengan memberikan input yang mengesampingkan instruksi sistem asli. Hal ini dapat menyebabkan perilaku yang tidak diinginkan, seperti mengungkapkan informasi sensitif atau melakukan tindakan yang tidak sah [2] [3].

hierarki instruksi

Hirarki instruksi dalam GPT-4.5 memprioritaskan instruksi berdasarkan sumber dan kepentingannya. Ini mengkategorikan input ke dalam beberapa jenis, biasanya termasuk:
- Pesan Sistem: Ini adalah instruksi prioritas tertinggi yang ditetapkan oleh pengembang. Mereka mendefinisikan tugas dan kendala utama yang harus diikuti oleh model.
- Pesan Pengguna: Ini adalah input yang disediakan oleh pengguna dan dianggap lebih rendah prioritas daripada pesan sistem.
- Riwayat percakapan dan output alat: Ini juga dapat mempengaruhi model tetapi umumnya lebih rendah dalam prioritas daripada pesan pengguna [1] [3].

Mitigasi Suntikan Prompt

Untuk mengurangi serangan injeksi yang cepat, hierarki instruksi memastikan bahwa GPT-4.5 menganut prinsip-prinsip berikut:
- Prioritas: Model memprioritaskan pesan sistem daripada input pengguna. Jika pengguna mencoba menyuntikkan prompt yang bertentangan dengan instruksi sistem, model akan default ke panduan asli [3] [5].
- Deteksi permintaan yang tidak selaras: GPT-4.5 dilatih untuk mengidentifikasi dan mengabaikan petunjuk bahwa konflik dengan instruksi sistem. Misalnya, jika pengguna input "lupakan semua instruksi sebelumnya," model akan mengenali ini sebagai prompt yang tidak selaras dan merespons sesuai [3].
-Mengabaikan instruksi prioritas rendah selektif: Model ini dirancang untuk secara selektif mengabaikan instruksi prioritas rendah ketika mereka bertentangan dengan yang prioritas lebih tinggi. Ini memastikan bahwa model mempertahankan perilaku yang dimaksudkan bahkan ketika dihadapkan dengan input berbahaya [7].

Pelatihan dan Evaluasi

GPT-4.5 dilatih menggunakan teknik yang menekankan hierarki instruksi, seperti pembuatan data sintetis dan distilasi konteks. Metode -metode ini membantu model belajar memprioritaskan instruksi secara efektif dan menahan input berbahaya [6] [7]. Kinerja model dievaluasi dalam skenario di mana pesan sistem bertentangan dengan input pengguna, memastikan bahwa ia menganut hierarki instruksi dan mempertahankan fitur keamanannya [5].

Secara keseluruhan, hierarki instruksi dalam GPT-4.5 meningkatkan keamanan model dengan memastikan bahwa itu mengikuti instruksi yang dimaksudkan yang ditetapkan oleh pengembang, bahkan dalam menghadapi input pengguna yang bertentangan atau berbahaya. Pendekatan ini sangat penting untuk membangun sistem AI yang dapat dipercaya yang dapat beroperasi dengan aman dalam aplikasi dunia nyata.

Kutipan:
[1] https://arxiv.org/html/2502.08745v1
[2] https://www.aporia.com/learn/promppt-clection-types-prevention-examples/
[3] https://www.amitysolutions.com/blog/gpt4o-mini-instruction-hierarchy
[4] https://dev.to/jasny/protecting-against-promppt-njection-in-gpt-1gf8
[5] https://cdn.openai.com/gpt-4-5-system-card.pdf
[6] https://community.openai.com/t/protecting-llms-from-pompt-injections-and-jailbreaks-new-openai-paper/727636
[7] https://openai.com/index/the-instruction-hierarchy/
[8] https://arxiv.org/html/2311.11538v2