Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon Dapatkah GPT-4.5 beradaptasi dengan jenis baru instruksi yang bertentangan yang belum dilatih


Dapatkah GPT-4.5 beradaptasi dengan jenis baru instruksi yang bertentangan yang belum dilatih


GPT-4.5 dirancang untuk menangani instruksi yang bertentangan melalui hierarki instruksi, yang memprioritaskan pesan sistem daripada pesan pengguna untuk mengurangi risiko seperti suntikan cepat dan serangan lain yang mengesampingkan instruksi keselamatan [1]. Namun, apakah GPT-4.5 dapat beradaptasi dengan jenis baru instruksi yang bertentangan yang belum dilatih adalah pertanyaan yang rumit.

Pelatihan dan evaluasi

GPT-4.5 telah dilatih menggunakan teknik pengawasan baru yang dikombinasikan dengan metode tradisional seperti Fine-tuning (SFT) dan pembelajaran penguatan dari umpan balik manusia (RLHF) [1]. Metode -metode ini bertujuan untuk meningkatkan penyelarasan model dengan niat pengguna dan kemampuannya untuk mengikuti instruksi secara lebih akurat. Model ini telah dievaluasi pada berbagai skenario di mana konflik sistem dan pesan pengguna, menunjukkan peningkatan dari model sebelumnya seperti GPT-4O [1].

kemampuan beradaptasi dengan instruksi yang saling bertentangan

Sementara GPT-4.5 menunjukkan kinerja yang lebih baik dalam menangani jenis instruksi yang bertentangan, kemampuannya untuk beradaptasi dengan jenis konflik yang sama sekali baru tergantung pada beberapa faktor:

1. Kemampuan Generalisasi: Pelatihan GPT-4.5 termasuk penskalaan pembelajaran tanpa pengawasan, yang meningkatkan kemampuannya untuk menggeneralisasi dan memahami konteks yang lebih luas [1]. Ini berpotensi membantunya mengenali pola dalam instruksi yang saling bertentangan.

2. Hirarki Instruksi: Hirarki instruksi model dirancang untuk memprioritaskan pesan sistem, yang membantu menjaga keamanan dan kepatuhan terhadap aturan yang telah ditentukan. Namun, jika instruksi yang bertentangan baru berada di luar ruang lingkup hierarki ini, model mungkin berjuang untuk beradaptasi tanpa pelatihan tambahan atau penyesuaian.

3. Prompt Engineering and Scaffolding: Pengguna dapat menggunakan teknik canggih atau perancah untuk memandu model menuju pemahaman dan mengikuti instruksi baru. Pendekatan ini dapat membantu memperoleh perilaku di luar apa yang dilatih oleh model itu secara eksplisit untuk [1].

4. Keterbatasan dan Evaluasi Keselamatan: Meskipun ada perbaikan, GPT-4.5 masih menghadapi tantangan dalam menangani skenario kompleks atau baru. Evaluasi keamanan telah menunjukkan bahwa sementara model berkinerja baik pada tugas yang diketahui, selalu ada risiko gagal mengikuti instruksi dalam konteks yang tidak terduga [1].

Kesimpulan

Sementara GPT-4.5 lebih mampu daripada pendahulunya dalam menangani instruksi yang bertentangan, kemampuan beradaptasi dengan jenis konflik yang sama sekali baru dibatasi oleh data dan desain pelatihannya. Ini mungkin memerlukan fine-tuning tambahan atau strategi pendakian kreatif untuk secara efektif menangani skenario baru. Penelitian dan interaksi pengguna yang sedang berlangsung dengan GPT-4.5 akan memberikan lebih banyak wawasan tentang kemampuan dan keterbatasannya di bidang ini.

Kutipan:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://assets.anthropic.com/m/983c85a201a962f/original/alignment-paking-in-large-faking-fake-podels-full-paper.pdf
[3] https://latenode.com/blog/chatgpt-4-5-review
[4] https://arxiv.org/pdf/2203.02155.pdf
[5] https://www.theverge.com/news/620067/openai-gpt-4-5-nearly-here
[6] https://community.openai.com/t/gpt-4o-not-following-simple-and-clear-instructions/768674
[7] https://www.reddit.com/r/singularity/comments/1bgpmnv/lets_say_gpt45_releases_next_week_what_are_your/
[8] https://www.reddit.com/r/openai/comments/18monbs/gpt_4_has_been_toned_down_significly_and/