Math-500 vs AIME 2024: Diferenças-chave nos benchmarks de raciocínio matemático

Quais são as principais diferenças nas métricas de avaliação entre os benchmarks Math-500 e Aime 2024

Os benchmarks Math-500 e Aime 2024 são usados para avaliar os recursos de raciocínio matemático nos modelos de IA, mas diferem em vários aspectos-chave:

1. Origem e propósito:
-Math-500 é derivado de um conjunto de dados maior criado pelo OpenAI, com foco na solução de problemas matemáticos em vários níveis de dificuldade. Ele foi projetado para avaliar a capacidade de um modelo de resolver problemas matemáticos em um sentido geral [1].
- O Aime 2024 é baseado no Exame de Matemática Americana de Invitational, uma prestigiada competição para estudantes do ensino médio. Ele testa habilidades avançadas de raciocínio matemático, particularmente em áreas como álgebra, geometria e teoria dos números [2].

2. Nível de dificuldade:
- O Math-500 inclui uma ampla gama de problemas matemáticos, mas geralmente é considerado menos desafiador que o AIME. É usado para avaliar os recursos básicos de raciocínio matemático [1].
- O AIME 2024 consiste em perguntas altamente desafiadoras que são significativamente mais difíceis do que as do Math-500. Ele foi projetado para avaliar as habilidades matemáticas avançadas, muitas vezes superando as capacidades de modelos que não são de rendimento e até o desempenho humano em alguns casos [2].

3. Método de avaliação:
-O Math-500 usa um mecanismo de validação de respostas em dois estágios envolvendo classificação baseada em scripts com o Sympy para verificação de igualdade simbólica e um verificador de igualdade de modelo de idioma como backup. Isso garante classificação precisa das respostas matemáticas [1].
- O AIME 2024 avalia os modelos com base em sua capacidade de fornecer respostas numéricas corretas para as perguntas. A avaliação é direta, com foco na precisão das respostas inteiras fornecidas pelos modelos [2].

4. Formato e disponibilidade de perguntas:
- As perguntas Math-500 fazem parte de um conjunto de dados maiores e não são tão expostas publicamente quanto as perguntas do AIME. O conjunto de dados é usado para avaliar os recursos matemáticos dos modelos sem a influência de pré -treinamento em questões específicas [1].
- As perguntas e respostas do AIME 2024 estão disponíveis ao público, o que pode influenciar o desempenho do modelo se as perguntas forem incluídas no corpus pré -treinamento. Isso levou a observações em que os modelos têm melhor desempenho nas versões mais antigas do AIM devido à exposição potencial durante o treinamento [2].

5. Ponderação em suítes de avaliação:
- Tanto o Math-500 quanto o Aime 2024 fazem parte do índice de inteligência de análise artificial, mas são ponderados igualmente dentro do componente de raciocínio matemático, que representa 25% do índice geral. Isso significa que ambos contribuem igualmente para avaliar as habilidades matemáticas de um modelo [1].

Em resumo, enquanto os dois benchmarks avaliam o raciocínio matemático, eles diferem em dificuldade, origem, métodos de avaliação e o tipo de habilidades matemáticas que avaliam.

Citações:
[1] https://artificialanalysis.ai/methodology/Intelligence-Benchmarking
[2] https://www.vals.ai/benchmarks/aime-2025-03-11
[3] https://www.credo.ai/model-trust-scores-ai-evaluation?_bhlid=c0cc9970c0c61aac64f22e2216b45b92bb72c69a
[4] https://arxiv.org/html/2502.06781v1
[5] https://github.com/gair-nlp/aime-preview
[6] https://arxiv.org/html/2503.04550
[7] https://huggingface.co/datasets/huggingfaceh4/math-500
[8] https://arxiv.org/html/2410.03131v1