Math-500およびAIME 2024ベンチマークは、AIモデルの数学的推論機能を評価するために使用されますが、いくつかの重要な側面で異なります。
1。起源と目的:
-Math-500は、OpenAIによって作成されたより大きなデータセットから派生し、さまざまな難易度レベルにわたる数学的な問題解決に焦点を当てています。一般的な意味で数学的な問題を解決するモデルの能力を評価するように設計されています[1]。
-AIME 2024は、高校生向けの有名な競争であるAmerican Invitational Mathematics Examinationに基づいています。特に代数、ジオメトリ、数の理論などの分野で、高度な数学的推論スキルをテストします[2]。
2。難易度:
-Math-500には、幅広い数学的な問題が含まれていますが、一般にAIMEよりも困難ではないと考えられています。基本的な数学的推論能力を評価するために使用されます[1]。
-AIME 2024は、Math-500の質問よりもかなり難しい非常に挑戦的な質問で構成されています。これは、高度な数学的スキルを評価するように設計されており、多くの場合、非合理的なモデルや人間のパフォーマンスの能力を上回ります[2]。
3。評価方法:
-Math-500は、Symbolic Equality CheckingとLanguage Model Equality CheckerのSympyを使用したスクリプトベースのグレーディングを含む2段階の回答検証メカニズムをバックアップとして使用します。これにより、数学の回答の正確なグレーディングが保証されます[1]。
-AIME 2024は、質問に対する正しい数値の回答を提供する能力に基づいてモデルを評価します。評価は簡単で、モデル[2]によって提供される整数回答の精度に焦点を当てています。
4。質問形式と可用性:
-Math-500の質問は、より大きなデータセットの一部であり、AIIMEの質問ほど公開されていません。データセットは、特定の質問に対する前orの影響なしにモデルの数学機能を評価するために使用されます[1]。
-AIME 2024の質問と回答は公開されています。これは、質問が前登録コーパスに含まれている場合、モデルのパフォーマンスに影響を与える可能性があります。これにより、トレーニング中の潜在的な曝露のために、AIMEの古いバージョンでモデルのパフォーマンスが向上した観測につながりました[2]。
5。評価スイートの重み:
-Math-500とAIME 2024の両方は、人工分析インテリジェンスインデックスの一部ですが、それらは数学的推論コンポーネント内で等しく重み付けされており、これはインデックス全体の25%を占めています。これは、どちらもモデルの数学的能力の評価に等しく貢献していることを意味します[1]。
要約すると、両方のベンチマークが数学的推論を評価しますが、それらは、彼らが評価する難易度、起源、評価方法、および数学的スキルのタイプが異なります。
引用:
[1] https://artificialanalysis.ai/methodology/intelligence-benchmarking
[2] https://www.vals.ai/benchmarks/aime-2025-03-11
[3] https://www.credo.ai/model-trust-scores-ai-evaluation?_bhlid=c0cc9970c0c61aac64f22e2e2216b45b92bb72c69a
[4] https://arxiv.org/html/2502.06781v1
[5] https://github.com/gair-nlp/aime-preview
[6] https://arxiv.org/html/2503.04550
[7] https://huggingface.co/datasets/huggingfaceh4/math-500
[8] https://arxiv.org/html/2410.03131v1