Tolok ukur Math-500 dan AIME 2024 keduanya digunakan untuk mengevaluasi kemampuan penalaran matematika dalam model AI, tetapi mereka berbeda dalam beberapa aspek kunci:
1. Asal dan Tujuan:
-Math-500 berasal dari dataset yang lebih besar yang dibuat oleh OpenAI, dengan fokus pada pemecahan masalah matematika di berbagai tingkat kesulitan. Ini dirancang untuk menilai kemampuan model untuk memecahkan masalah matematika dalam arti umum [1].
- AIME 2024 didasarkan pada Ujian Matematika Undangan Amerika, kompetisi bergengsi untuk siswa sekolah menengah. Ini menguji keterampilan penalaran matematika tingkat lanjut, terutama di bidang -bidang seperti aljabar, geometri, dan teori bilangan [2].
2. Tingkat Kesulitan:
- Math-500 mencakup berbagai masalah matematika tetapi umumnya dianggap kurang menantang daripada AIME. Ini digunakan untuk mengevaluasi kemampuan penalaran matematika dasar [1].
- AIME 2024 terdiri dari pertanyaan yang sangat menantang yang secara signifikan lebih sulit daripada di MATH-500. Ini dirancang untuk menilai keterampilan matematika canggih, seringkali melampaui kemampuan model yang tidak masuk akal dan bahkan kinerja manusia dalam beberapa kasus [2].
3. Metode Evaluasi:
-Math-500 menggunakan mekanisme validasi jawaban dua tahap yang melibatkan penilaian berbasis skrip dengan Sympy untuk pemeriksaan kesetaraan simbolik dan pemeriksa kesetaraan model bahasa sebagai cadangan. Ini memastikan penilaian yang tepat dari jawaban matematika [1].
- AIME 2024 mengevaluasi model berdasarkan kemampuan mereka untuk memberikan jawaban numerik yang benar untuk pertanyaan. Evaluasi langsung, berfokus pada keakuratan jawaban integer yang disediakan oleh model [2].
4. Format pertanyaan dan ketersediaan:
- Pertanyaan Math-500 adalah bagian dari dataset yang lebih besar dan tidak diekspos secara publik seperti pertanyaan AIME. Dataset digunakan untuk mengevaluasi kemampuan matematika model tanpa pengaruh pretraining pada pertanyaan spesifik [1].
- Pertanyaan dan jawaban AIME 2024 tersedia untuk umum, yang berpotensi mempengaruhi kinerja model jika pertanyaan termasuk dalam korpus pretraining. Ini telah menyebabkan pengamatan di mana model berkinerja lebih baik pada versi AIME yang lebih lama karena potensi paparan selama pelatihan [2].
5. Bobot dalam evaluasi suite:
- Baik Math-500 dan AIME 2024 adalah bagian dari indeks kecerdasan analisis buatan, tetapi mereka ditimbang secara merata dalam komponen penalaran matematika, yang menyumbang 25% dari keseluruhan indeks. Ini berarti mereka berdua berkontribusi sama untuk menilai kemampuan matematika model [1].
Singkatnya, sementara kedua tolok ukur mengevaluasi penalaran matematika, mereka berbeda dalam kesulitan, asal, metode evaluasi, dan jenis keterampilan matematika yang mereka nilai.
Kutipan:
[1] https://artitifialanalysis.ai/methodology/intelligence-benchmarking
[2] https://www.vals.ai/benchmarks/aime-2025-03-11
[3] https://www.credo.ai/model-trust-scores-ai-evaluasi?
[4] https://arxiv.org/html/2502.06781v1
[5] https://github.com/gair-nlp/aime-preview
[6] https://arxiv.org/html/2503.04550
[7] https://huggingface.co/datasets/huggingfaceeh4/math-500
[8] https://arxiv.org/html/2410.03131v1