GPT-4.5 Öğretim Hiyerarşisi: Güvenlik ve Güvenlik için Sistem Mesajlarına Öncelikle

GPT-4.5, Sistem Mesajlarını Kullanıcı Mesajları üzerinden Nasıl Öna getirir?

GPT-4.5, hızlı enjeksiyon ve modelin güvenlik talimatlarını geçersiz kılabilecek diğer saldırılar riskini azaltmak için tasarlanmış bir talimat hiyerarşisi aracılığıyla kullanıcı mesajları üzerinden sistem mesajlarını önceliklendirir. Bu hiyerarşi mesajları iki ana türe ayırır: sistem mesajları ve kullanıcı mesajları. Sistem mesajları esasen yapay zekanın davranışını yönlendiren gizli talimatlardır, kullanıcı mesajları kullanıcılar tarafından sağlanan girişlerdir.

GPT-4.5'te, sistem ve kullanıcı mesajları çatıştığında, model Sistem mesajındaki talimatları kullanıcı mesajındakiler üzerinden izlemek için eğitilir. Bu, modelin bu tür mesajların çatışmada olduğu örnekler üzerinde denetlenerek elde edilir. Model, güvenlik yönergelerine uymayı sağlamak ve istenmeyen çıktıları önlemek için sistem mesajlarına öncelik vermeyi öğrenir.

Örneğin, bir kullanıcı modeli zararlı bilgiler sağlamaya çalıştırmaya çalışırsa, sistem mesajı modele bu tür talepleri reddetmesini bildirebilir. GPT-4.5'in bu hiyerarşiye uyma yeteneği, güvenlik standartlarını korumaya ve modelin izin verilmeyen içerik üretilmesine yönelik manipüle edilmesini önlemeye yardımcı olur.

Bu yaklaşım, GPT-4.5'in, akıllıca hazırlanmış kullanıcı girdileri aracılığıyla bu kuralları atlama girişimleriyle karşılaştığında bile, amaçlanan güvenlik ve etik yönergelerle tutarlı bir şekilde davranmasını sağlamak için çok önemlidir. Openai, sistem mesajlarına öncelik vererek, modelin çeşitli uygulamalarda güvenilirliğini ve güvenliğini artırmayı amaçlamaktadır [1] [2].

Alıntılar:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://www.prompthub.us/blog/Everthing-system-sessages-how-to-use-them-real-world-experiments-promple-protectors
[3] https://platform.openai.com/docs/guides/prompt-engineering
[4] https://community.openai.com/t/whys-gpt-4o-sanely-messages-it-users-and-for-plus-users-it-literally-barely-gives-to--5-sesges-in-6-hours-the-free-users/769852
[5] https://9meters.com/technology/ai/gpt-4-5-begin-rolling out-to-plus-and-steam-users-next-week-then-to-nerprise-and-edu-users-to-week-week-week
[6] https://arxiv.org/html/2408.10943v1
[7] https://www.pymnts.com/arfial-intigence-2/2025/openai-to-rease-gpt-4-5-within-weeks-gpt-5-within-months/
[8] https://www.reddit.com/r/chatgptpro/comments/13n55w7/highly_efficficfic_prompt_for_summarizing_gpt4/