ความถูกต้องของ GPT-4.5 ในคำถามการแก้ไขปัญหาโดยเฉพาะอย่างยิ่งในโดเมนที่ซับซ้อนเช่นการแก้ไขปัญหาหลายรูปแบบและไวรัสวิทยาไม่ได้มีรายละเอียดอย่างชัดเจนในข้อมูลที่มีอยู่ อย่างไรก็ตาม GPT-4.5 ได้แสดงการปรับปรุงในบางพื้นที่เมื่อเทียบกับรุ่นก่อน ตัวอย่างเช่นมันทำงานได้ดีขึ้นในการจดจำรูปแบบและการเชื่อมต่อการวาดภาพซึ่งอาจเพิ่มความสามารถในการแก้ไขปัญหา [5]
ในแง่ของการประเมินที่เฉพาะเจาะจง GPT-40 โดยทั่วไปจะดำเนินการเทียบเท่ากับ GPT-4O และ O1 ในการปฏิเสธเนื้อหาที่ไม่ปลอดภัยและในการประเมินที่เกี่ยวข้องกับความปลอดภัย [1] [4] อย่างไรก็ตามเมื่อพูดถึงความถูกต้องในการตอบคำถาม GPT-4.5 ได้แสดงการปรับปรุงที่สำคัญในชุดข้อมูลบางชุด ตัวอย่างเช่นในชุดข้อมูล PersonQA ซึ่งประเมินภาพหลอนและความแม่นยำ GPT-4.5 ได้รับความแม่นยำ 0.78 และอัตราภาพหลอน 0.19, มีประสิทธิภาพสูงกว่า GPT-4O และ O1 [1] [4]
ในการประเมินความเป็นธรรมและอคติ GPT-4.5 ดำเนินการคล้ายกับ GPT-4O แต่มีประสิทธิภาพสูงกว่า O1 ในการให้คำตอบที่ไม่เอนเอียงสำหรับคำถามที่ไม่คลุมเครือ [1] [4] ในขณะที่ GPT-4.5 ได้แสดงให้เห็นถึงการปรับปรุงในการจัดการข้อความที่ขัดแย้งกันและปฏิบัติตามคำแนะนำด้านความปลอดภัยความแม่นยำโดยรวมในการแก้ไขคำถามโดยเฉพาะไม่ได้เปรียบเทียบโดยตรงกับ GPT-4O และ O1 ในข้อมูลที่มีอยู่ [1] [4]
โดยทั่วไปความสามารถของ GPT-4.5 ในการรับรู้รูปแบบและการเชื่อมต่อการวาดอาจช่วยเพิ่มประสิทธิภาพในการแก้ไขปัญหางาน แต่การเปรียบเทียบที่เฉพาะเจาะจงในโดเมนนี้มี จำกัด ผู้สังเกตการณ์ในอุตสาหกรรมได้บันทึกการปรับปรุงในบางงานเช่นการสกัดข้อมูลโดยที่ GPT-4.5 มีประสิทธิภาพเหนือกว่า GPT-4O โดยการแยกฟิลด์ให้แม่นยำยิ่งขึ้น [7] อย่างไรก็ตามการเปรียบเทียบโดยละเอียดโดยเฉพาะสำหรับคำถามการแก้ไขปัญหาไม่ได้ให้ไว้ในข้อมูลที่มีอยู่
การอ้างอิง:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://www.reddit.com/r/chatgptpro/comments/1GGNM90/GPT4O_AND_OTHERS_PROVIDE_MORE_INCORRECT_THAN/
[3] https://www.reddit.com/r/openai/comments/1izp6tt/gpt_45_Release_Heres_Benchmarks/
[4] https://assets.ctfassets.net/kftzwdyauwt9/7eadv6oawhhhxlaehuyu7db/64e9f7916d3581ba4b5d0f0a6c5098d1/gpt-4-5_system
[5] https://www.theverge.com/news/620021/openai-gpt-4-5-orion-ai-model-release
[6] https://neoteric.eu/blog/gpt-4o-vs-gpt-4-vs-gpt-3-5-comparison-in-real-world-scenarios/
[7] https://venturebeat.com/ai/industry-observers-say-gpt-4-5-is-an-odd-model-question-its-price/
[8] https://community.openai.com/t/gpt-4-vs-gpt-4o-hich-is-the-better/746991