Akurasi GPT-4.5 dalam pemecahan masalah dan perbandingan kinerja

Bagaimana akurasi GPT-4.5 pada pertanyaan pemecahan masalah dibandingkan dengan yang dari GPT-4O dan O1

Keakuratan GPT-4.5 pada pertanyaan pemecahan masalah, terutama di domain kompleks seperti pemecahan masalah multimodal dan virologi, tidak secara eksplisit dirinci dalam informasi yang tersedia. Namun, GPT-4.5 telah menunjukkan peningkatan di bidang tertentu dibandingkan dengan pendahulunya. Misalnya, ia berkinerja lebih baik dalam mengenali pola dan menggambar koneksi, yang berpotensi meningkatkan kemampuan pemecahan masalahnya [5].

Dalam hal evaluasi spesifik, GPT-4.5 umumnya berkinerja setara dengan GPT-4O dan O1 dalam menolak konten yang tidak aman dan dalam beberapa evaluasi terkait keselamatan [1] [4]. Namun, ketika datang ke akurasi dalam menjawab pertanyaan, GPT-4.5 telah menunjukkan peningkatan yang signifikan dalam kumpulan data tertentu. Misalnya, dalam dataset PersonQA, yang mengevaluasi halusinasi dan akurasi, GPT-4.5 mencapai akurasi 0,78 dan tingkat halusinasi 0,19, mengungguli GPT-4O dan O1 [1] [4].

Dalam evaluasi keadilan dan bias, GPT-4.5 berkinerja sama dengan GPT-4O tetapi diunggulkan oleh O1 dalam memberikan jawaban yang tidak memihak untuk pertanyaan yang tidak ambigu [1] [4]. Sementara GPT-4.5 telah menunjukkan peningkatan dalam menangani pesan yang bertentangan dan mematuhi instruksi keselamatan, akurasi keseluruhannya dalam pemecahan masalah pertanyaan khusus tidak secara langsung dibandingkan dengan GPT-4O dan O1 dalam data yang tersedia [1] [4].

Secara umum, kemampuan GPT-4.5 untuk mengenali pola dan menggambar koneksi dapat meningkatkan kinerjanya dalam tugas pemecahan masalah, tetapi perbandingan spesifik dalam domain ini terbatas. Pengamat industri telah mencatat peningkatan dalam tugas-tugas tertentu, seperti ekstraksi data, di mana GPT-4.5 mengungguli GPT-4O dengan mengekstraksi bidang lebih akurat [7]. Namun, perbandingan terperinci khusus untuk pertanyaan pemecahan masalah tidak disediakan dalam informasi yang tersedia.

Kutipan:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://www.reddit.com/r/chatgptpro/comments/1ggnm90/gpt4o_and_others_provide_more_incorrect_than/
[3] https://www.reddit.com/r/openai/comments/1izp6tt/gpt_45_releasing_heres_benchmarks/
[4] https://assets.ctfassets.net/kftzwdyauwt9/7eadv6oawhhxlaehuyu7db
[5] https://www.theverge.com/news/620021/openai-gpt-4-5-orion-ai-model-release
[6] https://neoteric.eu/blog/gpt-4o-vs-gpt-4-vs-gpt-3-5-comparison-in-real-world-scenarios/
[7] https://ventureBeat.com/ai/industry-observer-say-gpt-4-5-is-an-odd-model-question-its-price/
[8] https://community.openai.com/t/gpt-4-vs-gpt-4o-which-is-the-better/746991