Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon มีโดเมนใดบ้างที่อัตราการเกิดภาพหลอนของ GPT-4.5 อยู่ในระดับต่ำโดยเฉพาะ


มีโดเมนใดบ้างที่อัตราการเกิดภาพหลอนของ GPT-4.5 อยู่ในระดับต่ำโดยเฉพาะ


GPT-4.5 รุ่นล่าสุดจาก OpenAI แสดงให้เห็นถึงการลดลงอย่างมีนัยสำคัญในอัตราการเกิดภาพหลอนเมื่อเทียบกับรุ่นก่อน ในขณะที่โดยทั่วไปจะแสดงอัตราภาพหลอนประมาณ 37%แต่ก็มีโดเมนและการประเมินเฉพาะที่ประสิทธิภาพของมันดีกว่า

เทคนิคการลดภาพหลอน

GPT-4.5 ใช้เทคนิคการกำกับดูแลใหม่รวมถึงการปรับแต่งการปรับแต่ง (SFT) และการเรียนรู้การเสริมแรงจากข้อเสนอแนะของมนุษย์ (RLHF) ซึ่งนำไปสู่อัตราการเกิดภาพหลอนที่ต่ำกว่า [1] [3] วิธีการเหล่านี้ช่วยปรับปรุงความแม่นยำและความน่าเชื่อถือของโมเดลโดยการสร้างความมั่นใจว่าจะสร้างข้อมูลที่มีพื้นฐานมาจากข้อมูลจริง

ประสิทธิภาพในโดเมนเฉพาะ

- การประเมินผล PersonQA: ในชุดข้อมูล PersonQA ซึ่งทดสอบความสามารถของแบบจำลองในการตอบคำถามเกี่ยวกับผู้คนอย่างถูกต้อง GPT-4.5 แสดงอัตราการเกิดภาพหลอนประมาณ 19% ซึ่งต่ำกว่าอัตราโดยรวมและบ่งชี้ว่าในโดเมนที่เกี่ยวข้องกับข้อมูลจริงเกี่ยวกับบุคคล GPT-4.5 ทำงานได้ดีกับภาพหลอนน้อยลง [3]

-งานที่เกี่ยวข้องกับภาษา: GPT-4.5 เก่งในการเขียนและการเขียนโปรแกรมงานนำเสนอคำอธิบายโดยละเอียดและความช่วยเหลือในการแก้ปัญหาในทางปฏิบัติ ในขณะที่อัตราการเกิดภาพหลอนที่เฉพาะเจาะจงสำหรับงานเหล่านี้ไม่ได้มีรายละเอียด แต่การรับรู้รูปแบบที่ดีขึ้นของโมเดลและฐานความรู้ที่กว้างขึ้นมีส่วนช่วยให้ผลลัพธ์ที่แม่นยำและเชื่อถือได้มากขึ้น [1] [5]

- เปรียบเทียบกับแบบจำลองอื่น ๆ : ในการประเมินบางอย่างเช่นโมเดลการให้เหตุผล O1 อัตราการเกิดภาพหลอนของ GPT-4.5 สูงขึ้น (37% เทียบกับ 44% สำหรับ O1) อย่างไรก็ตาม GPT-4.5 ได้รับการออกแบบมาสำหรับแอพพลิเคชั่นที่มีวัตถุประสงค์ทั่วไปมากกว่างานการใช้เหตุผลพิเศษ [5]

โดยรวมแล้วอัตราการเกิดภาพหลอนของ GPT-4.5 นั้นอยู่ในระดับต่ำโดยเฉพาะอย่างยิ่งในโดเมนที่ได้รับการฝึกอบรมและประเมินอย่างกว้างขวางเช่นในชุดข้อมูล PersonQA อย่างไรก็ตามประสิทธิภาพของมันอาจแตกต่างกันไปตามงานและการประเมินที่แตกต่างกันซึ่งสะท้อนให้เห็นถึงความท้าทายอย่างต่อเนื่องในการลดภาพหลอนในโมเดล AI

การอ้างอิง:
[1] https://topmostads.com/openai-release-gpt-4-5/
[2] https://www.reddit.com/r/chatgpt/comments/18kqaom/gpt45turbo_hallucination_explained_with_tests_and/
[3] https://cdn.openai.com/gpt-4-5-system-card.pdf
[4] https://community.openai.com/t/custom-gpt-used-to-work-now-hallucinates-and-does-not-use-use-specific-data-from-files-as- instructed/809849
[5] https://www.channelnewsia.com/business/openai-rolls-out-gpt-45-some-paying-users-expand-access-next-week-4966131
[6] https://www.youtube.com/watch?v=KTWK3HBAJDY
[7] https://garymarcus.substack.com/p/gpt-45-is-no-gpt-5
[8] https://www.toolify.ai/gpts/exciting-new-updates-open-source-stable-diffusion-200k-context-claude-21-139386