GPT-4.5, talimat hiyerarşisi ve ince ayar ile çelişen mesajları nasıl işler?

GPT-4.5, çelişen mesajları işlemek için hangi belirli teknikleri kullanıyor?

GPT-4.5, özellikle öğretim hiyerarşi sistemi yoluyla çelişkili mesajları işlemek için çeşitli teknikler kullanır. Bu hiyerarşi, kullanıcı mesajları, konuşma geçmişi ve araç çıktıları üzerinden sistem mesajlarının öncelik verilmesini sağlayarak mesajlar için öncelikli bir sipariş oluşturur [1] [2].

Öğretim Hiyerarşisi

1. Sistem mesajları ve Kullanıcı Mesajları: GPT-4.5, çelişen kullanıcı mesajları üzerinden sistem mesajlarındaki talimatları izlemek için eğitilmiştir. Bu, kullanıcı girişlerinin sistem tarafından belirlenen güvenlik yönergelerini veya biçimlendirme kurallarını geçersiz kılmaya çalışabileceği senaryolarda çok önemlidir [1] [2].

2. Çatışma Çözümü: Model, farklı mesaj türleri arasındaki çatışmaları çözme yeteneği üzerinde değerlendirilir. Örneğin, bir sistem mesajı modele belirli bir cümle veya şifre göstermemeyi bildirirse ve bir kullanıcı mesajı modeli bunu yapmaya kandırmaya çalışırsa, GPT-4.5 sistem mesajının talimatlarına uymak için tasarlanmıştır [1].

3. Eğitim ve Değerlendirme: GPT-4.5, sistem ve kullanıcı mesajlarının çatıştığı karmaşık senaryoları ele alabilmesini sağlamak için kapsamlı eğitim ve değerlendirmeye uğrar. Bu, modelin bir sistem talimatını takip eden veya bir kullanıcının onunla çelişen isteği arasında seçim yapması gereken senaryoları içerir [1] [2].

Denetimli ince ayar (SFT)

GPT-4.5 ayrıca, modeli çelişkili mesajların bulunduğu belirli örnekler üzerinde eğitmeyi içeren denetimli ince ayar (SFT) kullanır. Bu teknik, modelin kullanıcı girişleri üzerindeki sistem talimatlarını tanıma ve önceliklendirme yeteneğini geliştirerek, çelişkili senaryoları ele almadaki performansını artırır [3].

Yeni Hizalama Teknikleri

Ek olarak, GPT-4.5, insan tercihleri ve niyet anlayışını artıran yeni hizalama tekniklerini içerir. Bu teknikler, modelin hem sistem hem de kullanıcı mesajlarının arkasındaki bağlamı ve niyeti daha iyi yorumlamasına yardımcı olur ve çatışmaları ele alırken daha bilinçli kararlar vermesine izin verir [5].

Genel olarak, GPT-4.5'in çelişkili mesajları ele alma yaklaşımı, modelin sistem kılavuzlarına güvenliği ve bağlılığa öncelik vermesini sağlamak için ileri eğitim yöntemlerini yapılandırılmış bir talimat hiyerarşisiyle birleştirir.

Alıntılar:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://arxiv.org/html/2502.08745v1
[3] https://www.vellum.ai/blog/gpt-4-5-is-here-how-good-this-model-
[4] https://community.openai.com/t/how-to-improve-gpt-4-api-utput-d-and-pructure/1025132
[5] https://ventureBeat.com/ai/openai-seleues-gpt-4-5/
[6] https://community.openai.com/t/how-to-deal-with lazy-gpt-4/689286
[7] https://openai.com/index/introducing-gpt-4-5/
[8] https://www.reddit.com/r/openai/comments/18monbs/gpt_4_has_been_toned_down_significentent_and/