Kinerja GPT-4.5 tentang pengetahuan diam-diam dan pertanyaan pemecahan masalah, dibandingkan dengan GPT-4, mencerminkan kemajuan dalam menangani pertanyaan yang kompleks dan bernuansa. Sementara metrik spesifik untuk pengetahuan diam-diam dan pemecahan masalah tidak dirinci dalam informasi yang tersedia, beberapa perbaikan utama dalam GPT-4.5 dapat disorot:
1. Hirarki dan Keselamatan Instruksi: GPT-4.5 telah dilatih untuk mematuhi hierarki instruksi, yang membantu mengurangi risiko suntikan yang cepat dan serangan lainnya. Ini berarti lebih baik dalam mengikuti instruksi sistem daripada pesan pengguna yang bertentangan, meningkatkan kemampuannya untuk menangani skenario kompleks yang mungkin memerlukan pemecahan masalah [1]. Sebaliknya, GPT-4 tidak memiliki peningkatan khusus ini dalam literatur.
2. Pertanyaan Ambigu: GPT-4.5 menunjukkan akurasi yang sedikit lebih rendah pada pertanyaan ambigu dibandingkan dengan GPT-4O (versi GPT-4), dengan akurasi 0,95 untuk GPT-4O versus 0,95 untuk GPT-4 dan 0,95 untuk GPT-4.5. Namun, kinerja GPT-4.5 pada pertanyaan yang tidak ambigu mirip dengan GPT-4O, menunjukkan bahwa kedua model menangani kueri yang jelas secara efektif [1].
3. Pengetahuan Tacit dan Pemecahan Masalah: Sementara metrik spesifik untuk pengetahuan diam-diam dan pemecahan masalah tidak disediakan, kemampuan GPT-4.5 yang lebih baik untuk menangani pesan yang bertentangan dan hierarki instruksi yang ditingkatkan menyarankan untuk berkinerja lebih baik dalam skenario yang membutuhkan pemahaman dan pemecahan masalah yang bernuansa. GPT-4, di sisi lain, dikenal karena pemahaman bahasa yang ditingkatkan dan kemampuannya untuk memberikan jawaban yang lebih tepat untuk pertanyaan kompleks [2].
4. Kemampuan Multimodal: GPT-4, yang merupakan dasar untuk GPT-4.5, menawarkan peningkatan yang signifikan dibandingkan GPT-3.5 dalam kemampuan multimodal dan menangani permintaan kompleks. GPT-4 dapat memproses dan menanggapi rentang input data yang lebih luas, membuatnya lebih fleksibel untuk tugas yang mungkin melibatkan pemecahan masalah atau pengetahuan diam-diam [2] [6].
Singkatnya, sementara GPT-4.5 dibangun berdasarkan kekuatan GPT-4, terutama dalam menangani instruksi yang kompleks dan protokol keselamatan, kinerja spesifiknya pada pengetahuan diam-diam dan pertanyaan pemecahan masalah tidak terperinci secara luas. Namun, hierarki instruksi yang ditingkatkan dan peningkatan penanganan pesan yang bertentangan menunjukkan bahwa itu bisa lebih efektif dalam skenario pemecahan masalah yang bernuansa.
Kutipan:
[1] https://assets.ctfassets.net/kftzwdyauwt9/7eadv6oawhhxlaehUyu7db
[2] https://datasciencedojo.com/blog/gpt-3-5-vs-gpt-4-debate/
[3] https://www.opastpublishers.com/open-access-articles/evaluating-errors-and-improving-performance-of-chatgpt.pdf
[4] https://pmc.ncbi.nlm.nih.gov/articles/pmc11197181/
[5] https://community.openai.com/t/gpt-performance-is-not-follow-up-t-sructions-and-tasks/613298
[6] https://www.aubergine.co/insights/gpt-3-5-vs-gpt-4-an-in-depth-analysis-of-openais-language-model
[7] https://www.marketingaiinstitute.com/blog/the-ai-show-episode-137
[8] https://www.techtarget.com/searchenterpriseai/tip/gpt-35-vs-gpt-4-biggest-differences-to-consider