MATH-500 VS AIME 2024: Pagrindiniai matematinių samprotavimų etalonų skirtumai

Kokie yra pagrindiniai „Math-500“ ir „Aime 2024“ įvertinimo metrikos skirtumai

Matematikos-500 ir AIME 2024 etalonai yra naudojami matematinių samprotavimo galimybėms įvertinti AI modeliuose, tačiau jie skiriasi keliais pagrindiniais aspektais:

1. Kilmė ir tikslas:
-„Math-500“ yra gaunamas iš didesnio duomenų rinkinio, kurį sukūrė „Openai“, daugiausia dėmesio skiriant matematiniam problemų sprendimui įvairiais sunkumų lygiais. Jis skirtas įvertinti modelio sugebėjimą išspręsti matematines problemas bendrąja prasme [1].
- „Aime 2024“ remiasi Amerikos kvietimo matematikos egzamine, prestižine vidurinių mokyklų studentų konkurencija. Tai patikrina pažangias matematinio samprotavimo įgūdžius, ypač tokiose srityse kaip algebra, geometrija ir skaičių teorija [2].

2. Sunkumo lygis:
- „Math-500“ apima platų matematinių problemų spektrą, tačiau paprastai laikoma mažiau sudėtinga nei Aime. Jis naudojamas įvertinti pagrindines matematinių samprotavimo galimybes [1].
- „Aime 2024“ susideda iš labai sudėtingų klausimų, kurie yra žymiai sunkesni nei „Math-500“. Jis skirtas įvertinti pažangius matematinius įgūdžius, dažnai pranokdami nepagrįstų modelių galimybes ir kai kuriais atvejais netgi žmogaus veikla [2].

3. Vertinimo metodas:
-„Math-500“ naudoja dviejų pakopų atsakymo patvirtinimo mechanizmą, apimantį scenarijaus klasifikavimą su „Sympy“, skirtą simbolinei lygybės tikrinimui, ir kalbos modelio lygybės tikrintuvą kaip atsarginę kopiją. Tai užtikrina tikslų matematinių atsakymų klasifikavimą [1].
- „Aime 2024“ įvertina modelius, atsižvelgiant į jų sugebėjimą pateikti teisingus skaitmeninius atsakymus į klausimus. Vertinimas yra paprastas, daugiausia dėmesio skiriant sveikojo skaičiaus atsakymų tikslumui [2].

4. Klausimų formatas ir prieinamumas:
- „Math-500“ klausimai yra didesnio duomenų rinkinio dalis ir nėra tokie viešai atskleisti kaip AIME klausimai. Duomenų rinkinys naudojamas modelių matematinėms galimybėms įvertinti, neturint įtakos išankstiniam pranešimui konkrečiems klausimams [1].
- „Aime 2024“ klausimai ir atsakymai yra viešai prieinami, o tai gali paveikti modelio atlikimą, jei klausimai bus įtraukti į išankstinį korpusą. Tai paskatino stebėjimus, kai modeliai geriau veikia senesnes AIME versijas dėl galimo ekspozicijos treniruotėse [2].

5. Svertinis įvertinimo apartamentas:
- Tiek „Math-500“, tiek „Aime 2024“ yra dirbtinės analizės žvalgybos indekso dalis, tačiau jie vienodai įvertinami matematinio samprotavimo komponente, kuris sudaro 25% viso indekso. Tai reiškia, kad jie abu vienodai prisideda prie modelio matematinių sugebėjimų įvertinimo [1].

Apibendrinant, nors abu etalonai vertina matematinius pagrindimus, jie skiriasi sunkumais, kilme, vertinimo metodais ir matematinių įgūdžių rūšimi.

Citatos:
[1] https://artifialanalysis.ai/methodology/intelligence-benchmarking
[2] https://www.vals.ai/benchmarks/aime-2025-03-11
[3] https://www.credo.ai/model-Trust-cores-ai-evaluation?_bhlid=c0cc9970c0c61aAc64f22e2216b45b92bb72c69a
[4] https://arxiv.org/html/2502.06781v1
[5] https://github.com/gair-nlp/aime-preview
[6] https://arxiv.org/html/2503.04550
[7] https://huggingface.co/datasets/huggingfaceh4/math-500
[8] https://arxiv.org/html/2410.03131v1