GPT-4.5: Çatışan talimatları ve uyarlanabilirliği ele alma

GPT-4.5, eğitilmediği yeni çelişkili talimatlara uyum sağlayabilir mi?

GPT-4.5, hızlı enjeksiyonlar ve diğer saldırıları geçersiz kılma gibi riskleri azaltmak için kullanıcı mesajları üzerinden sistem mesajlarını önceliklendiren bir talimat hiyerarşisi aracılığıyla çelişkili talimatları ele almak üzere tasarlanmıştır [1]. Bununla birlikte, GPT-4.5'in eğitilmediği yeni çelişkili talimatlara uyum sağlayamayacağı karmaşık bir sorudur.

Eğitim ve Değerlendirme

GPT-4.5, denetimli ince ayar (SFT) ve insan geri bildirimlerinden (RLHF) takviye öğrenimi gibi geleneksel yöntemlerle birlikte yeni denetim teknikleri kullanılarak eğitilmiştir [1]. Bu yöntemler, modelin kullanıcı niyetiyle uyumunu ve talimatları daha doğru izleme yeteneğini geliştirmeyi amaçlamaktadır. Model, sistem ve kullanıcı mesajlarının çatıştığı ve GPT-4O gibi önceki modellerde iyileştirmeler gösteren çeşitli senaryolarda değerlendirilmiştir [1].

yeni çelişkili talimatlara uyarlanabilirlik

GPT-4.5, bilinen çelişkili talimat türlerini ele almada daha iyi performans gösterirken, tamamen yeni çatışma türlerine uyum sağlama yeteneği çeşitli faktörlere bağlıdır:

1. Genelleştirme yetenekleri: GPT-4.5'in eğitimi, daha geniş bağlamları genelleme ve anlama yeteneğini geliştiren denetimsiz öğrenmenin ölçeklenmesini içerir [1]. Bu potansiyel olarak yeni çelişkili talimatlardaki kalıpları tanımasına yardımcı olabilir.

2. Öğretim Hiyerarşisi: Modelin öğretim hiyerarşisi, güvenliğin ve önceden tanımlanmış kurallara bağlılığın sürdürülmesine yardımcı olan sistem mesajlarına öncelik vermek için tasarlanmıştır. Bununla birlikte, yeni çelişkili talimatlar bu hiyerarşinin kapsamı dışında kalırsa, model ek eğitim veya ince ayar yapmadan uyum sağlamak için mücadele edebilir.

3. Hızlı Mühendislik ve İskele: Kullanıcılar, modeli yeni talimatları anlamaya ve izlemeye yönlendirmek için gelişmiş isteme teknikleri veya iskele kullanabilirler. Bu yaklaşım, modelin [1] için açıkça eğitildiğinin ötesinde davranışların ortaya çıkmasına yardımcı olabilir.

4. Sınırlamalar ve Güvenlik Değerlendirmeleri: İyileştirmelere rağmen, GPT-4.5 hala karmaşık veya yeni senaryoların ele alınmasında zorluklarla karşı karşıyadır. Güvenlik değerlendirmeleri, modelin bilinen görevlerde iyi performans göstermesine rağmen, her zaman öngörülemeyen bağlamlarda talimatları takip etme riski olduğunu göstermiştir [1].

Çözüm

GPT-4.5, çelişkili talimatları ele almada öncekilerden daha yetenekli olsa da, tamamen yeni çatışmalara uyarlanabilirliği eğitim verileri ve tasarımı ile sınırlıdır. Yeni senaryoları etkili bir şekilde ele almak için ek ince ayar veya yaratıcı stratejiler gerektirebilir. GPT-4.5 ile devam eden araştırma ve kullanıcı etkileşimleri, bu alandaki yetenekleri ve sınırlamaları hakkında daha fazla bilgi sağlayacaktır.

Alıntılar:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://assets.antropic.com/m/983c85a201a962f/original/alignment-fing-in-lange-language-models-full-paper.pdf
[3] https://latenode.com/blog/Chatgpt-4-5-review
[4] https://arxiv.org/pdf/2203.02155.pdf
[5] https://www.theverge.com/news/620067/openai-gpt-4-5-were-de-here
[6] https://community.openai.com/t/gpt-4o-not-following-simple-and-ple-structions/768674
[7] https://www.reddit.com/r/singularity/comments/1bgpmnv/lets_say_gpt45_releases_next_week_what_are_your/
[8] https://www.reddit.com/r/openai/comments/18monbs/gpt_4_has_been_toned_down_significentent_and/