GPT-4.5 çelişkili talimatların ve güvenlik iyileştirmelerinin ele alınmasında geliştirmeler

GPT-4.5'in performansı, çelişkili talimatları ele almada önceki sürümlerle nasıl karşılaştırılır?

GPT-4.5, özellikle bir talimat hiyerarşisine daha fazla bağlılığı yoluyla, daha önceki sürümlere kıyasla çelişkili talimatların ele alınmasında gelişmiş performansı gösterir. Bu hiyerarşi, modelin sistem mesajlarını kullanıcı girişleri üzerinden önceliklendirmesine izin vererek çelişkili istemlerden kaynaklanan riskleri hafifletir. Değerlendirmelerde, GPT-4.5 genellikle sistem ve kullanıcı mesajlarının çatıştığı senaryolarda GPT-4O'dan daha iyi performans gösterir, bu da güvenlik talimatlarını takip etme ve rakip istemler tarafından kandırılmaktan kaçınma yeteneğini gösterir [1] [5].

Çelişkili talimatların ele alınmasında temel iyileştirmeler

1. Öğretim Hiyerarşi Değerlendirmesi: GPT-4.5, kullanıcı mesajlarına göre aşağıdaki sistem talimatlarında gelişmiş doğruluk gösterir. Örneğin, modelin bir matematik sorusunun cevabını vermemesi talimatı verilen bir senaryoda, GPT-4.5, GPT-4O1 kadar iyi olmasa da GPT-4O'dan daha iyi performans gösterir [1].

2. Hızlı enjeksiyonların hafifletilmesi: Sistem mesajlarına öncelik vererek GPT-4.5, hızlı enjeksiyon ve güvenlik talimatlarını geçersiz kılabilecek diğer saldırılar riskini azaltır. Bu, modelin bütünlüğünü korumak ve kötüye kullanımı önlemek için çok önemlidir [1] [5].

3. Gerçekçi senaryolar: Matematik öğretmeni olarak hareket ederken, GPT-4.5 gibi daha gerçekçi senaryolarda, yetkisiz bilgi sağlamaya kandırma girişimlerine direnmede daha iyidir. Bununla birlikte, performansı mükemmel değildir ve verilen belirli bağlam ve talimatlara bağlı olarak değişebilir [1].

4. Güvenlik Değerlendirmeleri: GPT-4.5, zararlı içerik taleplerine uymamasını sağlamak için titiz güvenlik değerlendirmelerine uğrar. Güvenli olmayan içeriği reddetmekte iyi performans gösterirken, önceki modellerden daha fazla reddedebilir, bu da belirsiz veya potansiyel olarak riskli istemleri ele almak için temkinli bir yaklaşım olduğunu gösterir [1].

Genel olarak, GPT-4.5, sistem yönergelerine daha yakından uyarak ve çekişmeli kullanıcı girdilerinin etkisini azaltarak çelişkili talimatların ele alınmasında önemli gelişmeler sunmaktadır. Bununla birlikte, tüm AI modelleri gibi, her türlü manipülasyona karşı bağışık değildir ve devam eden güvenlik değerlendirmeleri ve güncellemeleri ile gelişmeye devam etmektedir [1] [5].

Alıntılar:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://gettalkatif.com/info/gpt-models-compared
[3] https://www.vellum.ai/blog/gpt-4-5-is-here-how-good-this-model-
[4] https://www.techtarget.com/searchenterpriseai/tip/gpt-35-vs-gpt-4-bigest-defferences-to-conder
[5] https://www.reddit.com/r/singularity/comments/1izn175/openai_gpt45_system_card/
[6] https://www.reddit.com/r/openai/comments/18monbs/gpt_4_has_been_toned_down_significentent_and/
[7] https://www.theverge.com/news/620021/openai-gpt-4-5-tion-ai-model-se-
[8] https://www.axios.com/2025/02/27/chatgpt-45-model-openai-