Math-500 proti AIME 2024: Ključne razlike v merilih matematičnega sklepanja

Katere so ključne razlike v ocenjevalnih metrikah med MATH-500 in AIME 2024

Merila MATH-500 in AIME 2024 se uporabljata za ocenjevanje zmogljivosti matematičnega sklepanja v modelih AI, vendar se razlikujejo v več ključnih vidikih:

1. izvor in namen:
-Math-500 izhaja iz večjega nabora podatkov, ki ga je ustvaril OpenAI, s poudarkom na matematičnem reševanju problemov na različnih stopnjah težav. Zasnovan je za oceno sposobnosti modela za reševanje matematičnih problemov v splošnem smislu [1].
- AIME 2024 temelji na izpitu American Invitational Mathematics, prestižnem tekmovanju za srednješolske študente. Testira napredne veščine matematičnega sklepanja, zlasti na področjih, kot so algebra, geometrija in teorija števila [2].

2. raven težavnosti:
- Math-500 vključuje široko paleto matematičnih težav, vendar se na splošno šteje za manj zahtevne kot AIME. Uporablja se za oceno osnovnih zmogljivosti matematičnega sklepanja [1].
- AIME 2024 je sestavljen iz zelo zahtevnih vprašanj, ki so bistveno težja od tistih v MATH-500. Zasnovan je za oceno naprednih matematičnih veščin, ki pogosto presegajo zmogljivosti nesojenih modelov in celo človekove zmogljivosti v nekaterih primerih [2].

3. Metoda ocenjevanja:
-Math-500 uporablja dvostopenjski mehanizem za preverjanje odgovorov, ki vključuje ocenjevanje scenarija s Sympy za preverjanje simbolične enakosti in preverjanje enakosti jezikovnega modela kot varnostno kopijo. To zagotavlja natančno ocenjevanje matematičnih odgovorov [1].
- AIME 2024 ocenjuje modele na podlagi njihove sposobnosti, da na vprašanja zagotavljajo pravilne številčne odgovore. Ocenjevanje je preprosta in se osredotoča na točnost celoštevilčnih odgovorov, ki jih zagotavljajo modeli [2].

4. Oblika vprašanja in razpoložljivost:
- Vprašanja MATH-500 so del večjega nabora podatkov in niso tako javno izpostavljena kot vprašanja AIME. Nabor podatkov se uporablja za ocenjevanje matematičnih zmogljivosti modelov, ne da bi vplivali na prednastavitev na posebna vprašanja [1].
- AIME 2024 Vprašanja in odgovori so javno dostopna, kar bi lahko vplivalo na uspešnost modela, če bi vprašanja vključena v pretrianing corpus. To je privedlo do opazovanj, ko modeli uspevajo bolje pri starejših različicah AIME zaradi morebitne izpostavljenosti med treningom [2].

5. Tehtiranje v vrednostnih paketih:
- Tako Math-500 kot AIME 2024 sta del indeksa inteligence za umetno analizo, vendar sta enako tehtana v komponenti matematičnega sklepanja, ki predstavlja 25% celotnega indeksa. To pomeni, da oba enako prispevata k oceni matematičnih sposobnosti modela [1].

Če povzamemo, medtem ko obe merili ocenjujeta matematično sklepanje, se razlikujeta po težavah, izvoru, metodah ocenjevanja in vrsti matematičnih veščin, ki jih ocenjujejo.

Navedbe:
[1] https://artifialanalysis.ai/methodology/intelligence-wenchmarking
[2] https://www.vals.ai/benchmarks/aime-2025-03-11
[3] https://www.credo.ai/model-trust-scores-ai-evalution?_bhlid=c0cc9970c0c0c61aac64f22e2216b45b92bb72c69a
[4] https://arxiv.org/html/2502.06781V1
[5] https://github.com/gair-nlp/aime-preview
[6] https://arxiv.org/html/2503.04550
[7] https://huggingface.co/datasets/huggingfaceh4/math-500
[8] https://arxiv.org/html/2410.03131V1