GPT-4.5 Sorun Giderme ve Performans Karşılaştırmalarında Doğruluk

GPT-4.5'in Sorun Giderme Sorularındaki Doğruluğu GPT-4O ve O1'inkiyle karşılaştırılıyor

GPT-4.5'in sorun giderme soruları üzerindeki doğruluğu, özellikle multimodal sorun giderme ve viroloji gibi karmaşık alanlarda, mevcut bilgilerde açıkça ayrıntılı olarak açıklanmamıştır. Bununla birlikte, GPT-4.5, belirli alanlarda seleflerine kıyasla iyileştirmeler göstermiştir. Örneğin, sorun giderme yeteneklerini potansiyel olarak artırabilecek kalıpları ve çizim bağlantılarını tanımada daha iyi performans gösterir [5].

Spesifik değerlendirmeler açısından, GPT-4.5 genellikle güvenli olmayan içeriği reddetmede ve emniyetle ilgili bazı değerlendirmelerde GPT-4O ve O1 ile eşit performans gösterir [1] [4]. Bununla birlikte, soruları cevaplamada doğruluk söz konusu olduğunda, GPT-4.5 belirli veri kümelerinde önemli gelişmeler göstermiştir. Örneğin, halüsinasyonları ve doğruluğu değerlendiren PersonQA veri kümesinde, GPT-4.5 0.78 doğruluk ve 0.19 halüsinasyon oranı elde ederek GPT-4O ve O1 [1] [4].

Adalet ve önyargı değerlendirmelerinde GPT-4.5, GPT-4O'ya benzer şekilde performans gösterir, ancak açık sorulara tarafsız cevaplar vermede O1 tarafından daha iyi performans gösterir [1] [4]. GPT-4.5, çelişkili mesajların ele alınmasında ve güvenlik talimatlarına bağlı kalmada iyileştirmeler gösterse de, sorunları giderme sorularındaki genel doğruluğu, mevcut verilerdeki GPT-4O ve O1 ile doğrudan karşılaştırılmamıştır [1] [4].

Genel olarak, GPT-4.5'in kalıpları tanıma ve bağlantıları çizme yeteneği, sorun giderme görevlerindeki performansını artırabilir, ancak bu alandaki belirli karşılaştırmalar sınırlıdır. Endüstri gözlemcileri, GPT-4.5'in alanları daha doğru bir şekilde çıkararak GPT-4O'dan daha iyi performans gösterdiği veri çıkarma gibi bazı görevlerde iyileşme kaydetmiştir [7]. Ancak, sorun giderme soruları için özel olarak ayrıntılı karşılaştırmalar mevcut bilgilerde verilmemiştir.

Alıntılar:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://www.reddit.com/r/chatgptpro/comments/1ggnm90/gpt4o_and_others_provide_more_incorrect_than/
[3] https://www.reddit.com/r/openai/comments/1izp6tt/gpt_45_releed_heres_benchmarks/
[4] https://assets.ctfassets.net/kftzwdyauwt9/7eadv6oawhhxlaehuyu7db/64ewhxla6c5098d1/gpt-4-5_system_card_2272025.
[5] https://www.theverge.com/news/620021/openai-gpt-4-5-tion-ai-model-se-
[6] https://neoteric.eu/blog/gpt-4o-vs-gpt-4-vs-gpt-3-5-comparison-in-real-world-scenarios/
[7] https://ventureebeat.com/ai/industry-observers--gpt-4-5-is-an-and-model-question-its-price/
[8] https://community.openai.com/t/gpt-4-vs-gpt-4o- Which-is-the-Better/746991