Math-500 vs AIME 2024: peamised erinevused matemaatilistes mõttekäikudes

Millised on Math-500 ja AIME 2024 võrdlusaluste hindamismõõdikute peamised erinevused

Math-500 ja AIME 2024 võrdlusaluseid kasutatakse mõlemad AI-mudelite matemaatiliste mõttekäikude hindamiseks, kuid need erinevad mitme peamise aspekti poolest:

1. päritolu ja eesmärk:
-Math-500 on tuletatud suuremast andmestikust, mille on loonud OpenAi, keskendudes matemaatilistele probleemide lahendamisele erinevatel raskusastmetel. Selle eesmärk on hinnata mudeli võimet lahendada matemaatilisi probleeme üldises tähenduses [1].
- AIME 2024 põhineb Ameerika kutse matemaatika eksamil, mis on mainekas võistlus keskkooliõpilaste jaoks. See testib täiustatud matemaatilisi mõttekäiku, eriti sellistes valdkondades nagu algebra, geomeetria ja arvuteooria [2].

2. raskusaste:
- Math-500 sisaldab mitmesuguseid matemaatilisi probleeme, kuid seda peetakse üldiselt vähem keerukaks kui AIME. Seda kasutatakse põhiliste matemaatiliste mõttekäikude hindamiseks [1].
- AIME 2024 koosneb väga keerulistest küsimustest, mis on oluliselt raskemad kui Math-500. Selle eesmärk on hinnata täiustatud matemaatilisi oskusi, ületades sageli mittesuunaliste mudelite ja isegi inimlike jõudluse võimalusi [2].

3. Hindamismeetod:
-Math-500 kasutab kaheastmelist vastuse valideerimismehhanismi, mis hõlmab skriptipõhist hindamist sümboolse võrdõiguslikkuse kontrollimiseks ja keelemudeli võrdõiguslikkuse kontrollijaks kui varukoopiaks. See tagab matemaatiliste vastuste täpse hindamise [1].
- AIME 2024 hindab mudeleid nende võimet pakkuda küsimustele õigeid numbrilisi vastuseid. Hindamine on sirgjooneline, keskendudes mudelite esitatud täisarvu vastuste täpsusele [2].

4. Küsimuste vorming ja saadavus:
- Math-500 küsimused on osa suuremast andmestikust ega ole nii avalikult paljastatud kui AIME küsimused. Andmekogumit kasutatakse mudelite matemaatiliste võimaluste hindamiseks, ilma et oleks mõjutatud konkreetsetele küsimustele [1].
- AIME 2024 küsimused ja vastused on avalikult kättesaadavad, mis võib potentsiaalselt mõjutada mudeli jõudlust, kui küsimused lisatakse eellaskes korpusesse. See on viinud tähelepanekuteni, kus mudelid toimivad AIME vanemate versioonide korral paremini treeningu ajal [2].

5. kaalumine hindamisviisides:
- Nii MATH-500 kui ka AIME 2024 on osa kunstliku analüüsi luureindeksist, kuid neid kaalutakse võrdselt matemaatiliste mõttekäikude komponendi piires, mis moodustab 25% kogu indeksist. See tähendab, et mõlemad aitavad kaasa võrdselt mudeli matemaatiliste võimete hindamisele [1].

Kokkuvõtlikult võib öelda, et kuigi mõlemad võrdlusalused hindavad matemaatilisi mõttekäike, erinevad need raskustes, päritolu, hindamismeetodite ja nende hinnatud matemaatiliste oskuste tüübis.

Tsitaadid:
]
[2] https://www.vals.ai/benchmarks/aime-2025-03-11
[3] https://www.credo.ai/model-trust-scores-ai-evaluim?
[4] https://arxiv.org/html/2502.06781v1
[5] https://github.com/gair-nlp/aime-preview
[6] https://arxiv.org/html/2503.04550
[7] https://huggingface.co/datasetts/huggingfaceh4/math-500
[8] https://arxiv.org/html/2410.03131v1