Math-500 vs AIME 2024: Diferențe cheie în raționamentul matematic de referință

Care sunt diferențele cheie în valorile de evaluare dintre matematica-500 și AIME 2024 de referință

Reperele de referință Math-500 și AIME 2024 sunt folosite pentru a evalua capacitățile de raționament matematic în modelele AI, dar diferă în mai multe aspecte cheie:

1. Originea și scopul:
-Math-500 este derivat dintr-un set de date mai mare creat de OpenAI, concentrându-se pe rezolvarea matematică a problemelor pe diferite niveluri de dificultate. Este conceput pentru a evalua capacitatea unui model de a rezolva problemele matematice într -un sens general [1].
- AIME 2024 se bazează pe examenul american de matematică Invitațional, o competiție prestigioasă pentru studenții de liceu. Testează abilități avansate de raționament matematic, în special în domenii precum algebra, geometria și teoria numerelor [2].

2. Nivel de dificultate:
- Math-500 include o gamă largă de probleme matematice, dar este considerată în general mai puțin provocatoare decât AIME. Este utilizat pentru a evalua capacitățile de raționament matematic de bază [1].
- AIME 2024 constă în întrebări extrem de provocatoare, care sunt semnificativ mai grele decât cele din Math-500. Este conceput pentru a evalua abilitățile matematice avansate, care depășește adesea capacitățile modelelor care nu sunt de sezon și chiar performanțele umane în unele cazuri [2].

3. Metoda de evaluare:
-Math-500 folosește un mecanism de validare a răspunsului în două etape care implică gradarea bazată pe scripturi cu Sympy pentru verificarea egalității simbolice și un model de egalitate de egalitate a modelului de limbă ca rezervă. Acest lucru asigură o notare precisă a răspunsurilor matematice [1].
- AIME 2024 evaluează modelele bazate pe capacitatea lor de a oferi răspunsuri numerice corecte la întrebări. Evaluarea este simplă, concentrându -se pe exactitatea răspunsurilor întregi furnizate de modele [2].

4. Formatul întrebării și disponibilitatea:
- Întrebările Math-500 fac parte dintr-un set de date mai mare și nu sunt la fel de expuse public ca întrebări AIME. Setul de date este utilizat pentru evaluarea capacităților matematice ale modelelor, fără influența pretratării asupra întrebărilor specifice [1].
- Întrebările și răspunsurile AIME 2024 sunt disponibile public, ceea ce ar putea influența performanța modelului dacă întrebările sunt incluse în corpusul de pretratare. Acest lucru a dus la observații în care modelele funcționează mai bine pe versiunile mai vechi ale AIME din cauza expunerii potențiale în timpul antrenamentului [2].

5. Ponderare în apartamente de evaluare:
- Atât Math-500, cât și AIME 2024 fac parte din indicele de informații de analiză artificială, dar sunt ponderate în mod egal în cadrul componentei de raționament matematic, care reprezintă 25% din indicele general. Aceasta înseamnă că ambele contribuie în mod egal la evaluarea abilităților matematice ale unui model [1].

În rezumat, în timp ce ambele repere evaluează raționamentul matematic, acestea diferă în dificultate, origine, metode de evaluare și tipul de abilități matematice pe care le evaluează.

Citări:
[1] https://artificialanalysis.ai/methodology/intelligence-benchmarking
[2] https://www.vals.ai/benchmarks/aime-2025-03-11
[3] https://www.credo.ai/model-frust-scores-AI-evaluation?_bhlid=C0CC9970C0C61AAC64F22E2216B45B92BB72C69A
[4] https://arxiv.org/html/2502.06781v1
[5] https://github.com/gair-nlp/aime-preview
[6] https://arxiv.org/html/2503.04550
[7] https://huggingface.co/datasets/huggingfaceh4/math-500
[8] https://arxiv.org/html/2410.03131v1