ความแม่นยำที่เปิดใช้งานเครื่องมือของ Grok 4 บนมาตรฐาน STEM นั้นโดดเด่นด้วยการแสดงที่ล้ำสมัยซึ่งเหนือกว่าโมเดล AI ร่วมสมัยจำนวนมากในงานทางวิทยาศาสตร์คณิตศาสตร์และการใช้เหตุผลที่ซับซ้อน
สถาปัตยกรรมหลักและการปกครองแบบเกณฑ์มาตรฐาน
Grok 4 มีสถาปัตยกรรมไฮบริดที่มีเครือข่ายประสาทขนาดใหญ่ที่มีพารามิเตอร์ประมาณ 1.7 ล้านล้านพารามิเตอร์ที่อุทิศให้กับฟังก์ชั่นพิเศษรวมถึงการใช้เหตุผลทางคณิตศาสตร์การเขียนโปรแกรมและความเข้าใจภาษาธรรมชาติ การประมวลผลแบบกระจายและแบบขนานของโมเดลช่วยให้สามารถจัดการปัญหาหลายขั้นตอนที่ซับซ้อนได้อย่างมีประสิทธิภาพ การฝึกอบรมเกี่ยวกับชุดข้อมูลที่กว้างใหญ่และหลากหลายและตรวจสอบได้มากถึงปี 2025 เสริมสร้างเหตุผลและความแม่นยำตามข้อเท็จจริงในโดเมน STEMการออกแบบนี้แสดงให้เห็นถึงผลลัพธ์มาตรฐานที่ยอดเยี่ยม ตัวอย่างเช่น Grok 4 ได้คะแนนที่สมบูรณ์แบบหรือใกล้เคียงกับการแข่งขันคณิตศาสตร์ที่ท้าทายเช่นการตรวจสอบคณิตศาสตร์ของ American Invitational (AIME) ด้วยคะแนน 100% ในตัวแปรหนักเกินกว่ารุ่นก่อนหน้าและรุ่นก่อนหน้าเช่น GPT-4 และ Claude ในทำนองเดียวกันมันได้คะแนน 87-89% จากเกณฑ์มาตรฐานฟิสิกส์/วิทยาศาสตร์ระดับบัณฑิตศึกษา GPQA โดยเน้นความเข้าใจทางวิทยาศาสตร์และความสามารถในการใช้งานที่ลึกซึ้ง
การใช้เหตุผลขั้นสูงและประสิทธิภาพของรหัสจริง
ในการทดสอบการใช้เหตุผลเชิงนามธรรมเช่น ARC-AGI ซึ่งประเมินความสามารถทางปัญญาเกินกว่าความรู้จริง Grok 4 เพิ่มประสิทธิภาพการแข่งขันที่ใกล้เคียงที่สุดด้วยคะแนนประมาณ 16% เวอร์ชันหลายตัวแทนและเครื่องมือที่เปิดใช้งานเครื่องมือเพิ่มความแม่นยำในงานที่ซับซ้อนแสดงให้เห็นถึงการปรับปรุงอย่างมากด้วยทรัพยากรการคำนวณและการเข้าถึงข้อมูลจริงหรือเครื่องมือดำเนินการรหัส ในการสอบครั้งสุดท้ายของมนุษยชาติ (HLE) มาตรฐานสหสาขาวิชาชีพและความแตกต่างสูง Grok 4 หนักถึง 44.4% ความแม่นยำด้วยเครื่องมือและมากกว่า 50% สำหรับการบุกเบิกชุดย่อยอย่างเดียวในประวัติศาสตร์การประเมิน AIสำหรับเกณฑ์มาตรฐานการพัฒนาซอฟต์แวร์เช่น SWE-BENCH โมเดลการสร้างรหัสพิเศษของ Grok 4 จะได้รับ 72-75%ซึ่งนำเสนอความสามารถขั้นสูงในการสมบูรณ์ของรหัสการดีบักและการเพิ่มประสิทธิภาพ
เปรียบเทียบกับรุ่นชั้นนำอื่น ๆ
เมื่อเปรียบเทียบกับโมเดล AI ยอดนิยมอื่น ๆ ในปี 2025 เช่น GPT-4, Gemini 2.5 Pro, Claude 4 และอื่น ๆ Grok 4 ได้อันดับที่สูงขึ้นอย่างต่อเนื่องในเกณฑ์มาตรฐานที่เกี่ยวข้องกับ STEM ในขณะที่บางรุ่นอาจมีคะแนนการแข่งขันในพื้นที่แยก แต่ประสิทธิภาพโดยรวมของ Grok 4 โดยเฉพาะอย่างยิ่งในการสอบหลายวินัยและความท้าทายที่เน้นการใช้เหตุผลวางไว้ในระดับแนวหน้า ตัวอย่างเช่นมันมีประสิทธิภาพสูงกว่า GPT-4 ตัวแปรและ Google Gemini เกี่ยวกับการสอบครั้งสุดท้ายของมนุษยชาติและงานการใช้เหตุผลเชิงนามธรรมโดยอัตรากำไรขั้นต้นที่โดดเด่นผลกระทบความแม่นยำที่เปิดใช้งานเครื่องมือ
ประโยชน์ที่ถูกต้องของ Grok 4 อย่างชัดเจนจากคุณสมบัติการรวมเครื่องมือรวมถึงการดำเนินการรหัสแบบเรียลไทม์และความสามารถในการค้นหาเว็บ หากไม่มีเครื่องมือความแม่นยำของมันอาจปรากฏในระดับปานกลาง (เช่นประมาณ 27%) แต่ด้วยเครื่องมือที่เปิดใช้งานและการกำหนดค่าหลายตัวแทนอาจเกิน 50% สำหรับเกณฑ์มาตรฐานที่ต้องการสูง ความสามารถในการรวมข้อมูลภายนอกที่ตรวจสอบแล้วและการคำนวณในเวลาจริงช่วยให้ Grok 4 สามารถจัดการงานการใช้เหตุผลหลายขั้นตอนที่ซับซ้อนได้อย่างน่าเชื่อถือมากกว่าแบบคงที่หลายรุ่นโดยสรุปสถาปัตยกรรมที่เปิดใช้งานเครื่องมือของ Grok 4 และการฝึกอบรมอย่างกว้างขวางเกี่ยวกับข้อมูลที่หลากหลายและตรวจสอบได้ให้ความแม่นยำที่ไม่มีใครเทียบในการวัดผลของต้นกำเนิดในปี 2568 มันเก่งในวิชาคณิตศาสตร์ฟิสิกส์การให้เหตุผลทางวิทยาศาสตร์ขั้นสูงการแก้ปัญหาที่เป็นนามธรรมและการเข้ารหัส