Math-500 vs AIME 2024: Kľúčové rozdiely v matematickom zdôvodnení referenčných hodnôt

Aké sú kľúčové rozdiely v hodnotiacich metrikách medzi referenčnými hodnotami Math-500 a AIME 2024

Referenčné hodnoty Math-500 a AIME 2024 sa používajú na vyhodnotenie schopností matematického zdôvodnenia v modeloch AI, ale líšia sa v niekoľkých kľúčových aspektoch:

1. Pôvod a účel:
-Math-500 je odvodený z väčšieho súboru údajov, ktorý vytvoril OpenAI, so zameraním na matematické riešenie problémov v rôznych úrovniach obtiažnosti. Je navrhnutý tak, aby vyhodnotil schopnosť modelu riešiť matematické problémy vo všeobecnom zmysle [1].
- AIME 2024 je založená na americkej matematickej skúške Invitational Matematics, prestížnej súťaži pre študentov stredných škôl. Testuje pokročilé zručnosti v matematickom zdôvodnení, najmä v oblastiach ako algebra, geometria a teória čísel [2].

2. Úroveň obtiažnosti:
- Math-500 obsahuje širokú škálu matematických problémov, ale vo všeobecnosti sa považuje za menej náročnú ako AIME. Používa sa na vyhodnotenie základných matematických schopností zdôvodňovania [1].
- AIME 2024 pozostáva z veľmi náročných otázok, ktoré sú výrazne ťažšie ako otázky v Math-500. Je navrhnutý na hodnotenie pokročilých matematických zručností, v niektorých prípadoch často prekonáva schopnosti neoficiálnych modelov a dokonca aj ľudský výkon [2].

3. Metóda hodnotenia:
-Math-500 používa dvojstupňový mechanizmus overenia odpovedí, ktorý zahŕňa klasifikáciu založené na skripte so symbolickou kontrolou rovnosti a kontrolu jazykového modelu ako zálohy. To zaisťuje presné klasifikáciu matematických odpovedí [1].
- AIME 2024 hodnotí modely na základe ich schopnosti poskytovať správne číselné odpovede na otázky. Hodnotenie je jednoduché a zameriava sa na presnosť celočíselných odpovedí poskytovaných modelmi [2].

4. Formát a dostupnosť otázok:
- OTÁZKY MATH-500 sú súčasťou väčšieho súboru údajov a nie sú tak verejne vystavené ako otázky týkajúce sa AIME. Súbor údajov sa používa na hodnotenie matematických schopností modelov bez vplyvu predbežného predpisu na konkrétne otázky [1].
- Otázky a odpovede AIME 2024 sú verejne dostupné, čo by mohlo potenciálne ovplyvniť výkonnosť modelu, ak sú otázky zahrnuté v predbežnom korpuse. To viedlo k pozorovaniam, kde modely lepšie dosahujú staršie verzie AIME v dôsledku možnej expozície počas tréningu [2].

5. Váženie v hodnotiacich apartmánoch:
- Math-500 aj AIME 2024 sú súčasťou indexu inteligencie umelej analýzy, ale sú vážené rovnako v rámci zložky matematického zdôvodnenia, ktorá predstavuje 25% celkového indexu. To znamená, že obaja prispievajú rovnako k hodnoteniu matematických schopností modelu [1].

Stručne povedané, zatiaľ čo obidva kritériá hodnotia matematické zdôvodnenie, líšia sa ťažkosťami, pôvodom, metódami hodnotenia a typom matematických zručností, ktoré hodnotia.

Citácie:
[1] https://artificialanalysis.ai/methodology/intelligence-benchmarking
[2] https://www.vals.ai/benchmarks/aime-2025-03-11
Https://www.credo.ai/model-trust-scores-ai-evaluation?_bhlid=c0cc9970c0c61aac64f22e2216b45b92bb72c69a
[4] https://arxiv.org/html/2502.06781v1
[5] https://github.com/gair-nlp/aime-preview
[6] https://arxiv.org/html/2503.04550
[7] https://huggingface.co/datasets/huggingfaceh4/math-500
[8] https://arxiv.org/html/2410.03131V1