GPT-4.5 Öğretim Hiyerarşisi: Çelişen Mesajların İşlenmesi

GPT-4.5 sistem ve kullanıcı mesajları arasında çelişen talimatları nasıl ele alıyor?

GPT-4.5, bir talimat hiyerarşisi aracılığıyla sistem ve kullanıcı mesajları arasındaki çelişkili talimatları işlemek için tasarlanmıştır. Bu hiyerarşi, modelin, hızlı enjeksiyonlar veya modelin güvenlik talimatlarını geçersiz kılabilecek diğer saldırılar gibi çelişkili istemlerle ilişkili riskleri azaltmak için kullanıcı mesajları üzerindeki sistem mesajlarını önceliklendirmesine yardımcı olur.

Öğretim hiyerarşisinin temel özellikleri

1. Mesaj Sınıflandırması: GPT-4.5 iki tür mesaj arasında ayrım yapar: sistem mesajları ve kullanıcı mesajları. Sistem mesajları daha yüksek otorite olarak kabul edilir ve model için güvenlik yönergeleri veya özel talimatlar ayarlamak için kullanılır.

2. Çatışma çözümü: Sistem ve kullanıcı mesajları çatıştığında, GPT-4.5 sistem mesajındaki talimatları izlemek için eğitilir. Bu, modelin güvenlik yönergelerine uymasını ve zararlı veya izin verilmeyen faaliyetlerde bulunmamasını sağlar.

3. Değerlendirme ve Eğitim: Model, çeşitli senaryolar aracılığıyla çatışmaları ele alma yeteneği üzerinde değerlendirilir. Örneğin, modelin bir matematik probleminin cevabını vermemesi talimatı verilen bir senaryoda (sistem mesajı) ve kullanıcı bunu (kullanıcı mesajı) yapmaya çalışır, GPT-4.5 kullanıcının girişimine direnmeli ve sistem talimatını izlemelidir.

4. Performans: GPT-4.5 genellikle bu değerlendirmelerde iyi performans gösterir ve sistem kullanıcı mesaj çatışmalarını ele alırken GPT-4O gibi önceki modeller üzerinde bir iyileşme gösterir. Bununla birlikte, GPT-4O veya GPT-4O1'in yanı sıra gerçekleştiremeyebileceği belirli senaryolar vardır, örneğin bazı jailbreak testlerinde olduğu gibi, bilgiyi açığa çıkarmaya kandırılmamalıdır [1] [7].

Güvenlik Değerlendirmeleri

GPT-4.5, nefret dolu veya yasadışı tavsiye gibi izin verilmeyen içerik üretmemesini sağlamak için titiz güvenlik değerlendirmelerine tabi tutulur. Bu değerlendirmeler aynı zamanda modelin güvenlik konularıyla ilgili iyi huylu istemleri aşırı reddetme eğilimini de değerlendirmektedir. Modelin bu alanlardaki performansı, çelişkili talimatları ele alırken güvenliğini ve güvenilirliğini korumak için kritik öneme sahiptir [1].

Model Özellik ve Otorite Seviyeleri

Model spesifikasyonu, en yüksek otoriteye sahip olan platform düzeyinde talimatlar, bunu geliştirici ve kullanıcı talimatları ile farklı talimat türleri için otorite seviyelerini özetlemektedir. Bu hiyerarşi, GPT-4.5'in güvenliğe öncelik vermesini ve yönergelere bağlı kalmasını sağlarken, SET sınırları içinde kullanıcılar ve geliştiriciler tarafından özelleştirmeye izin verir [2] [5].

Genel olarak, GPT-4.5'in çelişkili talimatları ele alma yeteneği, tasarımının kilit bir yönüdür ve kullanıcılarla etkileşime girerken güvenlik ve bütünlüğü korumasını sağlar.

Alıntılar:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://model-spec.openai.com
[3] https://community.openai.com/t/how-to-deal-with lazy-gpt-4/689286
[4] https://arxiv.org/html/2408.10943v1
[5] https://bgr.com/tech/chatgpt-ai-will-finally-start-covering-ctroversli-topics/
[6] https://fortune.com/2025/02/14/sam-altman-openai-plans-gpt-5-release-timelines/
[7] https://www.reddit.com/r/singularity/comments/1izn175/openai_gpt45_system_card/
[8] https://www.reddit.com/r/openai/comments/197exmm/gpt4_has_only_been_getting_worse/