Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon Bagaimana kinerja GPT-4.5 dibandingkan dengan GPT-4O dalam hal halusinasi


Bagaimana kinerja GPT-4.5 dibandingkan dengan GPT-4O dalam hal halusinasi


GPT-4.5 dan GPT-4O keduanya adalah model bahasa canggih yang dikembangkan oleh OpenAi, masing-masing dengan perbaikan berbeda atas pendahulunya. Saat membandingkan kinerja mereka dalam hal halusinasi, GPT-4.5 menunjukkan pengurangan yang signifikan dalam tingkat halusinasi dibandingkan dengan GPT-4O.

Pengurangan halusinasi di GPT-4.5

-Tingkat halusinasi: GPT-4.5 memiliki tingkat halusinasi sekitar 19% ketika diuji pada dataset PersonQA, yang merupakan peningkatan substansial dibandingkan tingkat GPT-4O sekitar 52% [2] [5]. Pengurangan ini menunjukkan bahwa GPT-4.5 lebih dapat diandalkan dan kurang rentan untuk menghasilkan informasi yang tidak didasarkan pada data faktual.
-Teknik Peningkatan: Pengurangan halusinasi dalam GPT-4.5 dikaitkan dengan teknik pengawasan baru yang dikombinasikan dengan metode tradisional seperti fine-tuning (SFT) yang diawasi dan pembelajaran penguatan dari umpan balik manusia (RLHF) [1]. Metode -metode ini membantu meningkatkan akurasi dan keandalan faktual model.

Perbandingan Kinerja

-Akurasi: Dalam hal akurasi pada dataset PersonQA, GPT-4.5 mencapai akurasi yang lebih tinggi sebesar 78%, dibandingkan dengan 28%GPT-4O [2] [5]. Ini menunjukkan bahwa GPT-4.5 tidak hanya mendapatkan lebih sedikit, tetapi juga memberikan respons yang lebih akurat.
- Keandalan keseluruhan: Tingkat halusinasi yang lebih rendah dan akurasi GPT-4.5 yang lebih tinggi menjadikannya pilihan yang lebih dapat diandalkan untuk aplikasi yang membutuhkan informasi yang tepat dan dapat dipercaya. Namun, kedua model melakukan hal yang sama dalam evaluasi tertentu, seperti penilaian keadilan dan bias [5].

Singkatnya, GPT-4.5 mengungguli GPT-4O dalam hal pengurangan dan akurasi halusinasi, menjadikannya opsi yang lebih andal untuk tugas yang memerlukan informasi yang tepat dan faktual. Namun, kedua model memiliki kekuatan dan kelemahan mereka di berbagai domain dan evaluasi.

Kutipan:
[1] https://topmostads.com/openai-release-gpt-4-5/
[2] https://assets.ctfassets.net/kftzwdyauwt9/7eadv6oawhhxlaehuyu7db
[3] https://www.reddit.com/r/openai/comments/1izq37r/gpt45s_low_hallucination_rate_is_a_gamechanger/
[4] https://www.techtarget.com/searchenterpriseai/feature/gpt-4o-vs-gpt-4-how-do-they-compare
[5] https://cdn.openai.com/gpt-4-5-system-card.pdf
[6] https://community.openai.com/t/gpt-4-vs-gpt-4o-which-is-the-better/746991
[7] https://mashable.com/article/openai-gpt-4-5-release-how-tober- try
[8] https://www.techtarget.com/searchenterpriseai/tip/gpt-35-vs-gpt-4-biggest-differences-to-consider