Math-500 vs AIME 2024: Nøgleforskelle i matematiske ræsonnement benchmarks

Hvad er de vigtigste forskelle i evalueringsmetrikerne mellem Math-500 og AIME 2024 benchmarks

Math-500 og AIME 2024 benchmarks bruges begge til at evaluere matematiske ræsonnementsfunktioner i AI-modeller, men de adskiller sig i flere centrale aspekter:

1. oprindelse og formål:
-Math-500 er afledt af et større datasæt oprettet af Openai med fokus på matematisk problemløsning på tværs af forskellige vanskelighedsniveauer. Det er designet til at vurdere en model's evne til at løse matematiske problemer i generel forstand [1].
- AIME 2024 er baseret på den amerikanske Invitational Mathematics-undersøgelse, en prestigefyldt konkurrence om studerende på gymnasiet. Det tester avancerede matematiske ræsonnementsevner, især i områder som algebra, geometri og talteori [2].

2. Sværhedsgrad:
- Math-500 inkluderer en lang række matematiske problemer, men betragtes generelt som mindre udfordrende end AIME. Det bruges til at evaluere grundlæggende matematiske ræsonnementsfunktioner [1].
- AIME 2024 består af meget udfordrende spørgsmål, der er markant sværere end dem i Math-500. Det er designet til at vurdere avancerede matematiske færdigheder, der ofte overgår kapaciteterne i ikke-rasningsformeringsmodeller og endda menneskelig præstation i nogle tilfælde [2].

3. evalueringsmetode:
-Math-500 bruger en to-trins svarvalideringsmekanisme, der involverer scriptbaseret klassificering med Sympy til symbolsk ligestillingskontrol og en sprogmodel ligestillingschecker som en sikkerhedskopi. Dette sikrer præcis klassificering af matematiske svar [1].
- AIME 2024 Evaluerer modeller baseret på deres evne til at give korrekte numeriske svar på spørgsmålene. Evalueringen er ligetil med fokus på nøjagtigheden af heltalets svar leveret af modellerne [2].

4. Spørgsmålformat og tilgængelighed:
- MATH-500-spørgsmål er en del af et større datasæt og er ikke så offentligt udsat som AIME-spørgsmål. Datasættet bruges til evaluering af modellernes matematiske evner uden indflydelse af forudgående på specifikke spørgsmål [1].
- AIME 2024 Spørgsmål og svar er offentligt tilgængelige, hvilket potentielt kan have indflydelse på modelpræstation, hvis spørgsmålene er inkluderet i den forudgående korpus. Dette har ført til observationer, hvor modeller fungerer bedre på ældre versioner af AIME på grund af potentiel eksponering under træning [2].

5. Vægt i evalueringssuiter:
- Både Math-500 og AIME 2024 er en del af det kunstige analyseintelligensindeks, men de vægtes lige inden for den matematiske ræsonnementskomponent, der tegner sig for 25% af det samlede indeks. Dette betyder, at de begge bidrager lige til at vurdere en model's matematiske evner [1].

Sammenfattende, mens begge benchmarks evaluerer matematisk ræsonnement, adskiller de sig i vanskeligheder, oprindelse, evalueringsmetoder og den type matematiske færdigheder, de vurderer.

Citater:
[1] https://artificialanalysis.ai/methodology/intelligence-benchmarking
[2] https://www.valals.ai/benchmarks/aime-2025-03-11
)
[4] https://arxiv.org/html/2502.06781v1
[5] https://github.com/gair-nlp/aime-preview
[6] https://arxiv.org/html/2503.04550
[7] https://huggingface.co/datasets/huggingfaceh4/math-500
[8] https://arxiv.org/html/2410.03131v1