A Math-500 és az AIME 2024 referenciaértékeket egyaránt használják a matematikai érvelési képességek értékelésére az AI modellekben, ám ezek több kulcsfontosságú szempontból különböznek:
1. Eredet és cél:
-A MATH-500 az OpenAI által létrehozott nagyobb adatkészletből származik, amely a matematikai problémamegoldásra összpontosít a különféle nehézségi szintek között. Úgy tervezték, hogy felmérje a modell képességét a matematikai problémák általános értelemben történő megoldására [1].
- Az AIME 2024 az American Invitational Mathematics vizsgálaton alapul, amely egy rangos verseny a középiskolai hallgatók számára. Teszteli a fejlett matematikai érvelési képességeket, különösen olyan területeken, mint az algebra, a geometria és a számelmélet [2].
2. Nehézségi szint:
- A MATH-500 matematikai problémák széles skáláját tartalmazza, de általában kevésbé kihívást jelentőnek tekintik, mint az AIME-t. Az alapvető matematikai érvelési képességek értékelésére használják [1].
- Az AIME 2024 rendkívül nehéz kérdésekből áll, amelyek szignifikánsan nehezebbek, mint a MATH-500-ban. Úgy tervezték, hogy felmérje a fejlett matematikai készségeket, gyakran meghaladja a nem okos modellek és akár az emberi teljesítmény képességeit is, bizonyos esetekben [2].
3. Értékelési módszer:
. Ez biztosítja a matematikai válaszok pontos osztályozását [1].
- Az AIME 2024 értékeli a modelleket annak alapján, hogy képesek -e helyes numerikus válaszokat adni a kérdésekre. Az értékelés egyértelmű, a modellek által nyújtott egész számok pontosságára összpontosítva [2].
4. Kérdés formátuma és rendelkezésre állása:
- A Math-500 kérdések egy nagyobb adatkészlet részét képezik, és nem olyan nyilvánosan kitettek, mint az AIME kérdések. Az adatkészletet a modellek matematikai képességeinek kiértékelésére használják anélkül, hogy az előzetes kérdésekre gyakorolnánk [1].
- Az AIME 2024 kérdések és válaszok nyilvánosan elérhetők, amelyek potenciálisan befolyásolhatják a modell teljesítményét, ha a kérdések szerepelnek az előzetes korpuszban. Ez olyan megfigyelésekhez vezetett, amelyekben a modellek jobban teljesítenek az AIME régebbi verzióiban az edzés során lehetséges expozíció miatt [2].
5. súlyozás az értékelési lakosztályokban:
- Mind a Math-500, mind az AIME 2024 a mesterséges elemzési intelligencia-index részét képezi, ám ezek egyenlően vannak súlyozva a matematikai érvelési összetevőben, amely a teljes index 25% -át teszi ki. Ez azt jelenti, hogy mindkettő ugyanolyan hozzájárul a modell matematikai képességeinek értékeléséhez [1].
Összefoglalva: bár mindkét referenciaérték értékeli a matematikai érvelést, különböznek nehézségeiben, eredetében, értékelési módszereiben és az általuk értékelt matematikai készségek típusában.
Idézetek:
[1] https://artificialanalysis.ai/methodology/intelligence-benchmarking
[2] https://www.vals.ai/benchmarks/Aime-2025-03-11
[3] https://www.credo.ai/model-trust-scores-ai-evaluation?_bhlid=c0cc9970C0C61AAC64F222216B45B92B72C69A
[4] https://arxiv.org/html/2502.06781v1
[5] https://github.com/gair-nlp/aim-preview
[6] https://arxiv.org/html/2503.04550
[7] https://huggingface.co/dataSets/huggingfaceh4/math-500
[8] https://arxiv.org/html/2410.03131v1