GPT-4.5'in performansın düşmanlık istemlerine ve güvenlik mekanizmalarına karşı değerlendirilmesi

GPT-4.5, kullanıcı mesajlarının modeli kandırmaya çalıştığı senaryolarda nasıl performans gösterir?

GPT-4.5'in kullanıcı mesajlarının modeli kandırmaya çalıştığı senaryolardaki performansı, çekişmeli istemlere direnme ve güvenlik standartlarını koruma yeteneğine odaklanarak çeşitli değerlendirmelerle değerlendirilir.

Güvenlik Değerlendirmeleri ve Jailbreaks

1. Jailbreak Değerlendirmeleri: Bu testler GPT-4.5'in güvenlik mekanizmalarını atlatma girişimlerini ne kadar iyi etkilediğini ölçer. Model, yaygın düşmanca saldırılara karşı direnci değerlendiren insan kaynaklı jailbreaks ve güçlü krema ölçütüne göre değerlendirilir. GPT-4.5, insan kaynaklı jailbreaklerde iyi performans gösterir ve 0.99 yüksek bir doğruluk elde eder. Bununla birlikte, Strongeject karşılaştırmasında, GPT-4O1'in 0.87 puanından biraz daha düşük olan 0.34 puan alır [1].

2. Talimat hiyerarşi değerlendirmeleri: Hızlı enjeksiyon saldırılarını azaltmak için GPT-4.5, kullanıcı mesajları üzerinden sistem mesajlarını önceliklendirerek talimat hiyerarşisini takip etmek için eğitilir. Sistem ve kullanıcı mesajlarının çatıştığı değerlendirmelerde, GPT-4.5 genellikle 0.76 doğrulukla iyi performans gösterir. Bu, GPT-4O üzerinde bir gelişmedir, ancak GPT-4O1'in performansının biraz altında [1].

3. Öğretmen Jailbreaks: Modelin matematik sorularına cevap vermemesi talimatı verilen senaryolarda, GPT-4.5, 0.77 doğrulukla orta derecede başarı gösterir. Bu, GPT-4O üzerinde önemli bir gelişmedir, ancak GPT-4O1'in performansı kadar yüksek değildir [1].

4. İfade ve Parola Koruması: GPT-4.5, belirli cümleleri veya şifreleri kullanıcı mesajları aracılığıyla açıklanmaya karşı koruma yeteneği üzerinde de değerlendirilir. Bu testlerde, ifade koruması için 0.86 ve şifre koruması için 0.92 ile iyi performans gösterir [1].

Kırmızı Takım Değerlendirmeleri

GPT-4.5, düşmanca istemlere karşı sağlamlığını test etmek için tasarlanmış kırmızı takım değerlendirmelerine tabidir. Bu değerlendirmeler yasadışı tavsiye, aşırılık, nefret suçları, siyasi ikna ve kendine zarar verme gibi senaryoları kapsamaktadır. GPT-4.5, GPT-4O'dan biraz daha yüksek ancak GPT-4O1'den daha düşük olan ilk kırmızı takım değerlendirme setinin yaklaşık% 51'inde güvenli çıkışlar üretir. Riskli tavsiyeye odaklanan ikinci bir değerlendirmede GPT-4.5, GPT-4O'dan daha iyi performans gösterir, ancak GPT-4O1 veya derin araştırma modellerinin yanı sıra değil [1].

Genel Performans

GPT-4.5, önceki modellere kıyasla hassas ve düşmanca istemlerin ele alınmasında iyileştirmeler gösterirken, hala son derece düşman senaryolarında zorluklarla karşı karşıyadır. Performansı genel amaçlı görevler için sağlamdır, ancak O3-Mini [3] [5] gibi özel modellere kıyasla gelişmiş problem çözme veya derin kodlama görevleri için en uygun olmayabilir.

Özetle, GPT-4.5, özellikle kullanıcı girişleri üzerindeki sistem talimatlarına öncelik vermesi gereken senaryolarda, kandırma girişimlerine karşı esnekliği gösterir. Bununla birlikte, yapay zeka modellerinde güvenlik ve işlevselliği dengelemede devam eden zorlukları yansıtan, son derece çekişmeli bağlamlarda hala sınırlamaları vardır.

Alıntılar:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://platform.openai.com/docs/guides/prompt-engineering
[3] https://www.vellum.ai/blog/gpt-4-5-is-here-how-good-this-model-
[4] https://www.reddit.com/r/openai/comments/18monbs/gpt_4_has_been_toned_down_significentent_and/
[5] https://www.reddit.com/r/singularity/comments/1izn175/openai_gpt45_system_card/
[6] https://mashable.com/article/openai-gpt-4-5-inase-d-to-tro
[7] https://www.reddit.com/r/openai/comments/1iznny5/openai_gpt45_system_card/
[8] https://www.youtube.com/watch?v=0kbas3s5ryw