MATH-500 VS AIME 2024: Différences clés dans le raisonnement mathématique Benchmarks

Quelles sont les principales différences dans les mesures d'évaluation entre les repères MATH-500 et AIME 2024

Les repères MATH-500 et AIME 2024 sont tous deux utilisés pour évaluer les capacités de raisonnement mathématique dans les modèles d'IA, mais ils diffèrent dans plusieurs aspects clés:

1. Origine et objectif:
- MATH-500 est dérivé d'un ensemble de données plus large créé par OpenAI, en se concentrant sur la résolution de problèmes mathématiques à différents niveaux de difficulté. Il est conçu pour évaluer la capacité d'un modèle à résoudre des problèmes mathématiques dans un sens général [1].
- AIME 2024 est basé sur l'American Invitational Mathematics Examination, une prestigieuse compétition pour les élèves du secondaire. Il teste des compétences avancées de raisonnement mathématique, en particulier dans des domaines comme l'algèbre, la géométrie et la théorie des nombres [2].

2. Niveau de difficulté:
- MATH-500 comprend un large éventail de problèmes mathématiques mais est généralement considéré comme moins difficile que l'AIME. Il est utilisé pour évaluer les capacités de raisonnement mathématique de base [1].
- L'Aime 2024 se compose de questions très difficiles qui sont beaucoup plus difficiles que celles de MATH-500. Il est conçu pour évaluer les compétences mathématiques avancées, dépassant souvent les capacités des modèles non renforcants et même des performances humaines dans certains cas [2].

3. Méthode d'évaluation:
- MATH-500 utilise un mécanisme de validation de réponse en deux étapes impliquant un classement basé sur le script avec Sympy pour la vérification symbolique de l'égalité et un vérificateur d'égalité du modèle de langue comme sauvegarde. Cela garantit un classement précis des réponses mathématiques [1].
- AIME 2024 évalue les modèles en fonction de leur capacité à fournir des réponses numériques correctes aux questions. L'évaluation est simple, en se concentrant sur la précision des réponses entières fournies par les modèles [2].

4. Format de question et disponibilité:
- Les questions MATH-500 font partie d'un ensemble de données plus large et ne sont pas aussi exposées publiquement que les questions AIME. L'ensemble de données est utilisé pour évaluer les capacités mathématiques des modèles sans l'influence de la pré-formation sur des questions spécifiques [1].
- Les questions et réponses AIME 2024 sont accessibles au public, ce qui pourrait potentiellement influencer les performances du modèle si les questions sont incluses dans le corpus de pré-formation. Cela a conduit à des observations où les modèles fonctionnent mieux sur les versions plus anciennes de l'AIME en raison d'une exposition potentielle pendant l'entraînement [2].

5. Pondération dans les suites d'évaluation:
- Math-500 et Aime 2024 font partie de l'indice d'intelligence de l'analyse artificielle, mais ils sont pondérés également dans la composante de raisonnement mathématique, qui représente 25% de l'indice global. Cela signifie qu'ils contribuent également à l'évaluation des capacités mathématiques d'un modèle [1].

En résumé, alors que les deux repères évaluent le raisonnement mathématique, ils diffèrent en difficulté, en origine, en méthodes d'évaluation et au type de compétences mathématiques qu'ils évaluent.

Citations:
[1] https://artificialanalysis.ai/methodology/intelligence-benchmarking
[2] https://www.vals.ai/benchmarks/aime-2025-03-11
[3] https://www.credo.ai/model-trust-scores-ai-evaluation?_bhlid=c0cc9970c0c61aac64f22e2216b45b92bb72c69a
[4] https://arxiv.org/html/2502.06781v1
[5] https://github.com/gair-nlp/aime-preview
[6] https://arxiv.org/html/2503.04550
[7] https://huggingface.co/datasets/huggingfaceh4/math-500
[8] https://arxiv.org/html/2410.03131v1