Math-500 проти AIME 2024: Ключові відмінності в математичних міркуваннях

Орієнтири Math-500 та AIME 2024 використовуються для оцінки можливостей математичних міркувань у моделях AI, але вони відрізняються в декількох ключових аспектах:

1. Походження та мета:
-Math-500 походить від більшого набору даних, створеного OpenAI, зосереджуючись на математичному вирішенні проблем на різних рівнях складності. Він призначений для оцінки здатності моделі вирішувати математичні проблеми в загальному сенсі [1].
- AIME 2024 заснований на американському іспиті з математики Invitational, престижної конкуренції для учнів середньої школи. Він тестує передові навички математичних міркувань, особливо в таких сферах, як алгебра, геометрія та теорія чисел [2].

2. Рівень складності:
- Math-500 включає широкий спектр математичних проблем, але, як правило, вважається менш складним, ніж AIME. Він використовується для оцінки основних можливостей математичних міркувань [1].
- AIME 2024 складається з надзвичайно складних питань, які значно важче, ніж у математиці-500. Він призначений для оцінки передових математичних навичок, часто перевершуючи можливості незарядні моделі та навіть ефективність людини в деяких випадках [2].

3. Метод оцінки:
-Math-500 використовує двоступеневий механізм валідації відповідей, що включає оцінку на основі сценаріїв із Sympy для символічної перевірки рівності та перевірки рівності мовної моделі як резервного копіювання. Це забезпечує точне оцінювання математичних відповідей [1].
- AIME 2024 оцінює моделі на основі їх здатності надавати правильні числові відповіді на питання. Оцінка є простою, зосереджуючись на точності цілих відповідей, наданих моделями [2].

4. Формат питань та доступність:
- Питання з математики-500 є частиною більшого набору даних і не є настільки публічно підданими питанням AIME. Набір даних використовується для оцінки математичних можливостей моделей без впливу редукторів на конкретні питання [1].
- Запитання та відповіді AIME 2024 є загальнодоступними, що потенційно може вплинути на продуктивність моделі, якщо питання включені в корпус. Це призвело до спостережень, де моделі краще працюють на старих версіях AIME через потенційне опромінення під час тренувань [2].

5. Зважування в оцінках наборів:
- І Math-500, і AIME 2024 є частиною індексу інтелекту штучного аналізу, але вони зважуються порівну в компоненті математичного міркування, який становить 25% від загального індексу. Це означає, що вони обидва однаково сприяють оцінці математичних здібностей моделі [1].

Підсумовуючи це, хоча обидва орієнтири оцінюють математичні міркування, вони відрізняються труднощами, походженням, методами оцінювання та типом математичних навичок, які вони оцінюють.

Цитати:
[1] https://artificialanalysis.ai/methodology/intelligence-benchmarking
[2] https://www.vals.ai/benchmarks/aime-2025-03-11
.
[4] https://arxiv.org/html/2502.06781v1
[5] https://github.com/gair-nlp/aime-preview
[6] https://arxiv.org/html/2503.04550
[7] https://huggingface.co/datasets/huggingfaceh4/math-500
[8] https://arxiv.org/html/2410.03131v1

Які ключові відмінності в показниках оцінювання між математики-500 та айме 2024 орієнтиром