GPT-4.5, model terbaru dari Openai, menunjukkan pengurangan yang signifikan dalam tingkat halusinasi dibandingkan dengan pendahulunya. Meskipun umumnya menunjukkan tingkat halusinasi sekitar 37%, ada domain dan evaluasi spesifik di mana kinerjanya lebih baik.
Teknik reduksi halusinasi ###
GPT-4.5 menggunakan teknik pengawasan baru, termasuk fine-tuning (SFT) yang diawasi dan pembelajaran penguatan dari umpan balik manusia (RLHF), yang berkontribusi pada tingkat halusinasi yang lebih rendah [1] [3]. Metode ini membantu meningkatkan akurasi dan keandalan model dengan memastikan bahwa ia menghasilkan informasi yang didasarkan pada data faktual.
Kinerja di domain tertentu
- Evaluasi PersonQA: Dalam dataset PersonQA, yang menguji kemampuan model untuk menjawab pertanyaan tentang orang secara akurat, GPT-4.5 menunjukkan tingkat halusinasi sekitar 19%. Ini lebih rendah dari tingkat keseluruhannya dan menunjukkan bahwa dalam domain yang melibatkan informasi faktual tentang individu, GPT-4.5 berkinerja baik dengan halusinasi lebih sedikit [3].
-Tugas terkait bahasa: GPT-4.5 unggul dalam tugas menulis dan pemrograman, menawarkan penjelasan rinci dan bantuan dalam pemecahan masalah praktis. Sementara tingkat halusinasi spesifik untuk tugas -tugas ini tidak terperinci, pengenalan pola model yang ditingkatkan dan basis pengetahuan yang lebih luas berkontribusi pada output yang lebih akurat dan andal [1] [5].
- Perbandingan dengan model lain: Dalam evaluasi tertentu, seperti model penalaran O1, tingkat halusinasi GPT-4.5 lebih tinggi (37% vs 44% untuk O1). Namun, GPT-4.5 dirancang untuk aplikasi tujuan yang lebih umum daripada tugas penalaran khusus [5].
Secara keseluruhan, tingkat halusinasi GPT-4.5 sangat rendah di domain di mana telah dilatih dan dievaluasi secara luas, seperti dalam dataset PersonQA. Namun, kinerjanya dapat bervariasi di berbagai tugas dan evaluasi, mencerminkan tantangan yang berkelanjutan dalam mengurangi halusinasi dalam model AI.
Kutipan:
[1] https://topmostads.com/openai-release-gpt-4-5/
[2] https://www.reddit.com/r/chatgpt/comments/18kqaom/gpt45turbo_hallucination_explained_with_tests_and/
[3] https://cdn.openai.com/gpt-4-5-system-card.pdf
[4] https://community.openai.com/t/custom-gpt-used-to-work-now-hallucinates-and-does-not-use-suse-pecific-data-from-files- as-instruksi/809849
[5] https://www.channelnewsasia.com/business/openai-rolls-ut-gpt-45-some-paying-users-expand-access-next-week-4966131
[6] https://www.youtube.com/watch?v=KTWK3HBAJDY
[7] https://garymarcus.substack.com/p/gpt-45-is-no-gpt-5
[8] https://www.toolify.ai/gpts/exciting-new-updates-open-source-stable-diffusion-200k-context-claude-21-139386