Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon เกณฑ์มาตรฐานที่เฉพาะเจาะจงมีการทดสอบ Grok 3 และ GPT-4O


เกณฑ์มาตรฐานที่เฉพาะเจาะจงมีการทดสอบ Grok 3 และ GPT-4O


Grok 3 และ GPT-4O ได้รับการทดสอบในการวัดจำนวนหลายอย่างเพื่อประเมินประสิทธิภาพของพวกเขาในหลาย ๆ โดเมน:

- คณิตศาสตร์: Grok 3 ได้คะแนน 93.3% จากการสอบคณิตศาสตร์ของ American Invitational 2025 (AIME) ในขณะที่ประสิทธิภาพของ GPT-4O ในพื้นที่นี้ไม่ได้เน้นอย่างชัดเจนในข้อมูลที่มีอยู่ อย่างไรก็ตามประสิทธิภาพของ Grok 3 ใน AIME 2024 นั้นสูงกว่าประสิทธิภาพทั่วไปของ GPT-4O อย่างมีนัยสำคัญในงานที่เกี่ยวข้องกับคณิตศาสตร์ [1] [3] [5]

-วิทยาศาสตร์และการใช้เหตุผล: Grok 3 ได้คะแนน 84.6% จากการทดสอบ GPQA (การให้เหตุผลจากผู้เชี่ยวชาญระดับบัณฑิตศึกษา) แสดงความแข็งแกร่งในความรู้วิทยาศาสตร์ระดับบัณฑิตศึกษา ประสิทธิภาพของ GPT-4O ในงานการใช้เหตุผลที่คล้ายกันโดยทั่วไปจะต่ำกว่าเมื่อเทียบกับ Grok 3 [1] [3] [6]

- การเข้ารหัส: Grok 3 ประสบความสำเร็จ 79.4% ใน LiveCodeBench, มีประสิทธิภาพสูงกว่า GPT-4O ในงานสร้างรหัส คะแนนเฉพาะของ GPT-4O ใน LiveCodeBench นั้นไม่ได้มีรายละเอียด แต่โดยทั่วไปแล้ว Grok 3 จะเก่งในการเข้ารหัสการเข้ารหัส [1] [3] [5]

- ความรู้ทั่วไป: Grok 3 ได้คะแนน 79.9% สำหรับ MMLU-Pro ซึ่งทดสอบความรู้ที่กว้างขวางในหลาย ๆ วิชา GPT-4O ได้คะแนน 72.6% จากเกณฑ์มาตรฐานเดียวกันซึ่งบ่งบอกถึงประสิทธิภาพที่แข็งแกร่งของ Grok 3 ในงานความรู้ทั่วไป [3]

- ความเข้าใจหลายรูปแบบ: Grok 3 แสดงให้เห็นถึงความสามารถในการทำงานหลายรูปแบบเช่น MMMU (ความเข้าใจแบบจำลองมัลติทาสก์หลายรูปแบบ) แม้ว่าการเปรียบเทียบเฉพาะกับ GPT-4O ในพื้นที่นี้มี จำกัด [1] [3]

โดยรวมแล้ว Grok 3 มีแนวโน้มที่จะดีกว่า GPT-4O ในงานพิเศษเช่นคณิตศาสตร์วิทยาศาสตร์และการเข้ารหัสในขณะที่ GPT-4O อาจมีความหลากหลายมากขึ้นในการใช้งานทั่วไป [2] [5] [6]

การอ้างอิง:
[1] https://www.leanware.co/insights/grok-3-vs-gpt-models-comparison
[2] https://www.datacamp.com/blog/grok-3
[3] https://x.ai/blog/grok-3
[4] https://www.outlookbusiness.com/start-um/news/elon-musk-unveils-grok-3-wow-it-performs-against-openais-gpt-4o-deepseek
[5] https://www.helicone.ai/blog/grok-3-benchmark-comparison
[6] https://felloai.com/2025/02/grok-3-vs-chatgpt-vs-deepseek-vs-claude-vs-gemini-which-ai-is-best-in-february-2025/
[7] https://lifehacker.com/Tech/ITEDEN
[8] https://writesonic.com/blog/grok-3-vs-chatgpt