Grok 3 mengungguli GPT-4O dalam tugas STEM: Perbandingan Benchmark

Tolok ukur spesifik apa yang menyoroti keunggulan Grok 3 atas GPT-4O dalam tugas STEM

Grok 3 menunjukkan keunggulan daripada GPT-4O dalam tugas STEM melalui beberapa tolok ukur utama:

1. Matematika (AIME 2025): Grok 3 mencapai skor 93,3%, secara signifikan mengungguli skor GPT-4O 79% dalam tugas penalaran matematika [1] [3]. Kinerja ini konsisten dengan kemampuan Grok 3 untuk memecahkan masalah matematika yang kompleks secara efisien.

2. Sains (GPQA): Skor Grok 3 84,6% pada penalaran ahli tingkat pascasarjana, melampaui skor GPT-4O 78% dalam pemecahan masalah ilmiah [1] [3]. Ini menunjukkan kemampuan canggih Grok 3 dalam menganalisis data ilmiah dan memberikan jawaban yang tepat.

3. Coding (LiveCodebench): Grok 3 unggul dengan skor 79,4%, mengungguli skor GPT-4O 72,9% dalam pembuatan kode dan tugas pemrograman [1] [3]. Ini menampilkan kemampuan Grok 3 untuk menghasilkan kode fungsional yang bersih secara efisien.

Tolok ukur ini menyoroti kinerja superior Grok 3 di bidang STEM, menjadikannya pilihan yang disukai bagi para profesional dalam matematika, sains, dan pemrograman. Selain itu, Mode Think Grok 3 memberikan transparansi dalam proses penalarannya, yang sangat bermanfaat untuk aplikasi STEM [1] [3].

Kutipan:
[1] https://writesonic.com/blog/grok-3-vs-catgpt
[2] https://www.datacamp.com/blog/grok-3
[3] https://www.leanware.co/insights/grok-3-vs-gpt-models-comparison
[4] https://www.helicone.ai/blog/grok-3-benchmark-comparison
[5] https://www.nitromediagroup.com/grok-3-elon-musk-xai-vs-catgpt-deep-seek/
[6] https://twitter.com/khandnanpathan/status/1892435136362279007
[7] https://x.ai/blog/grok-3
[8] https://opencv.org/blog/grok-3/
[9] https://channel8.com/english/31979