เพื่อประเมินความสามารถในการพูดได้หลายภาษาของ GPT-4.5, OpenAI ใช้วิธีการหลายวิธี:
1. การแปลชุดทดสอบ: OpenAI แปลชุดทดสอบของมาตรฐานการทำความเข้าใจภาษาขนาดใหญ่หลายภาษา (MMLU) เป็น 14 ภาษาโดยใช้นักแปลมนุษย์มืออาชีพ วิธีการนี้อนุญาตให้มีการประเมินผลการปฏิบัติงานของ GPT-4.5 ในหลายภาษารวมถึงภาษาอาหรับ, เบงกาลี, จีน (ง่าย), อังกฤษ, ฝรั่งเศส, เยอรมัน, ภาษาฮินดี, อินโดนีเซีย, อิตาลี, ญี่ปุ่น, เกาหลี, โปรตุเกส (บราซิล), สเปน, สวาฮิลีและโยรูบา [1]
2. การประเมินผลแบบไม่มีการยิง: แบบจำลองได้รับการทดสอบในการตั้งค่าแบบศูนย์-ช็อตซึ่งหมายความว่ามันไม่ได้ให้ข้อมูลการฝึกอบรมเพิ่มเติมหรือการปรับแต่งสำหรับภาษาที่เฉพาะเจาะจง วิธีนี้ประเมินความสามารถของแบบจำลองในการสรุปภาษาโดยไม่ต้องฝึกอบรมอย่างชัดเจน [1]
3. การเปรียบเทียบกับรุ่นก่อนหน้า: ประสิทธิภาพของ GPT-4.5 ถูกนำมาเปรียบเทียบกับรุ่นก่อนเช่น GPT-4O และ O1 เพื่อประเมินการปรับปรุงความสามารถในการพูดได้หลายภาษา การเปรียบเทียบนี้ช่วยระบุพื้นที่ที่ GPT-4.5 มีความก้าวหน้าและในกรณีที่อาจต้องปรับปรุง [1]
4. การประเมินความปลอดภัย: ในขณะที่ไม่ได้มุ่งเน้นไปที่ความสามารถในการพูดได้หลายภาษาการประเมินความปลอดภัยยังพิจารณาว่าแบบจำลองนั้นจัดการกับอินพุตภาษาที่หลากหลายได้ดีเพียงใด
5. การประเมินภายนอก: OpenAI น่าจะใช้เฟรมเวิร์กและเครื่องมือภายนอกซึ่งคล้ายกับแพลตฟอร์ม C-LARA ที่ใช้สำหรับการประเมินการประมวลผลหลายภาษาของ GPT-4 เพื่อประเมินความสามารถทางภาษาของ GPT-4.5 [4] อย่างไรก็ตามรายละเอียดเฉพาะเกี่ยวกับการใช้แพลตฟอร์มดังกล่าวสำหรับ GPT-4.5 ไม่ได้ให้ไว้ในข้อมูลที่มีอยู่
วิธีการเหล่านี้ให้การประเมินที่แข็งแกร่งของประสิทธิภาพหลายภาษาของ GPT-4.5 โดยเน้นจุดแข็งและพื้นที่สำหรับการปรับปรุงในอนาคต
การอ้างอิง:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://pmc.ncbi.nlm.nih.gov/articles/pmc11348013/
[3] https://openai.com/index/gpt-4-5-system-card/
[4] https://www.researchgate.net/publication/375999167_using_c-lara_to_to_evaluate_gpt-4s_multilingual_processing
[5] https://www.theverge.com/news/620021/openai-gpt-4-5-orion-ai-model-release
[6] https://www.mdpi.com/2227-7102/14/2/148
[7] https://venturebeat.com/ai/openai-releases-gpt-4-5/
[8] https://techcrunch.com/2025/02/27/openai-unveils-gpt-4-5-orion-its-largest-ai-model-yet/