Math-500 vs Aime 2024: Klíčové rozdíly v matematických benchmarkech

Jaké jsou klíčové rozdíly v metrikách hodnocení mezi MATH-500 a AIME 2024 Benchmarks

Benchmarky MATH-500 a AIME 2024 se používají k vyhodnocení schopností matematického uvažování v modelech AI, ale liší se v několika klíčových aspektech:

1. původ a účel:
-Math-500 je odvozen z většího souboru datového souboru vytvořeného OpenAI se zaměřením na matematické řešení problémů napříč různými úrovněmi obtížnosti. Je navržen tak, aby posoudil schopnost modelu řešit matematické problémy v obecném smyslu [1].
- AIME 2024 je založena na americké vyšetření Invitational Mathematics, prestižní soutěž pro studenty středních škol. Testuje pokročilé dovednosti matematického uvažování, zejména v oblastech, jako je algebra, geometrie a teorie čísel [2].

2. Úroveň obtížnosti:
- Math-500 zahrnuje širokou škálu matematických problémů, ale obecně je považováno za méně náročné než AIME. Používá se k vyhodnocení základních schopností matematického uvažování [1].
- AIME 2024 se skládá z vysoce náročných otázek, které jsou výrazně těžší než otázky v Math-500. Je navržen tak, aby posoudil pokročilé matematické dovednosti, často překonal schopnosti neodůvodňujících modelů a v některých případech dokonce i lidský výkon [2].

3. metoda hodnocení:
-Math-500 používá dvoustupňový mechanismus validace odpovědí zahrnujícího třídění skriptů se Sympy pro kontrolu symbolické rovnosti a kontrolu rovnosti jazykového modelu jako zálohu. To zajišťuje přesné hodnocení matematických odpovědí [1].
- AIME 2024 hodnotí modely na základě jejich schopnosti poskytnout správné numerické odpovědi na otázky. Hodnocení je přímé a zaměřuje se na přesnost celočíselných odpovědí poskytnutých modely [2].

4. Formát a dostupnost otázek:
- Math-500 otázky jsou součástí většího datového souboru a nejsou tak veřejně vystaveny jako otázky AIME. Datový soubor se používá pro vyhodnocení matematických schopností modelů bez vlivu předběžného předstihu na konkrétní otázky [1].
- AIME 2024 otázky a odpovědi jsou veřejně dostupné, což by mohlo potenciálně ovlivnit výkon modelu, pokud jsou otázky zahrnuty do předem. To vedlo k pozorování, kde modely fungují lépe na starších verzích AIME kvůli potenciální expozici během tréninku [2].

5. Vážení v hodnotících apartmách:
- Math-500 i AIME 2024 jsou součástí indexu indexu umělé analýzy, ale jsou váženy stejně ve složce matematického uvažování, která představuje 25% celkového indexu. To znamená, že oba přispívají stejně k posouzení matematických schopností modelu [1].

Stručně řečeno, zatímco obě benchmarky hodnotí matematické uvažování, liší se v obtížích, původu, metodách hodnocení a typem matematických dovedností, které hodnotí.

Citace:
[1] https://artificialanalysis.ai/methodology/intelligence-bchnmarking
[2] https://www.vals.ai/benchmarks/aime-2025-03-11
[3] https://www.credo.ai/model-trust-scores-ai-evaluation?_bhlid=C0CC9970C0C61AAC64F22E2216B45B92BB72C69A
[4] https://arxiv.org/html/2502.06781v1
[5] https://github.com/gair-nlp/aime-dreview
[6] https://arxiv.org/html/2503.04550
[7] https://huggingface.co/datasets/huggingfaceh4/math-500
[8] https://arxiv.org/html/2410.03131v1