MATH-500 VS AIME 2024: Matematiksel Akıl Yürütme Kıyaslarında Temel Farklılıklar

MATH-500 ve AIME 2024 KARDİSLERİ arasındaki değerlendirme metriklerindeki temel farklılıklar nelerdir?

Math-500 ve AIME 2024 ölçütlerinin her ikisi de AI modellerindeki matematiksel akıl yürütme yeteneklerini değerlendirmek için kullanılır, ancak birkaç temel açıdan farklılık gösterir:

1. Menşe ve amaç:
-Math-500, çeşitli zorluk seviyelerinde matematiksel problem çözmeye odaklanan Openai tarafından oluşturulan daha büyük bir veri kümesinden türetilmiştir. Bir modelin matematiksel problemleri genel anlamda çözme yeteneğini değerlendirmek için tasarlanmıştır [1].
- AIME 2024, lise öğrencileri için prestijli bir rekabet olan Amerikan Davet Matematik Sınavına dayanmaktadır. Özellikle cebir, geometri ve sayı teorisi gibi alanlarda ileri matematiksel akıl yürütme becerilerini test eder [2].

2. Zorluk seviyesi:
- Math-500 çok çeşitli matematiksel problemler içerir, ancak genellikle AIME'den daha az zorlayıcı kabul edilir. Temel matematiksel akıl yürütme yeteneklerini değerlendirmek için kullanılır [1].
- AIME 2024, Math-500'dekinden önemli ölçüde daha zor olan oldukça zorlu sorulardan oluşur. Gelişmiş matematiksel becerileri değerlendirmek için tasarlanmıştır, genellikle kurgu olmayan modellerin yeteneklerini ve hatta bazı durumlarda insan performansını aşmak için tasarlanmıştır [2].

3. Değerlendirme yöntemi:
-Math-500, Sembolik Eşitlik Kontrolü için Sympy ile Script tabanlı derecelendirmeyi ve yedekleme olarak bir dil modeli eşitlik denetleyicisini içeren iki aşamalı bir cevap doğrulama mekanizması kullanır. Bu, matematiksel cevapların kesin derecelendirilmesini sağlar [1].
- AIME 2024, modelleri sorulara doğru sayısal cevaplar sağlama yeteneklerine göre değerlendirir. Değerlendirme, modeller tarafından sağlanan tamsayı cevaplarının doğruluğuna odaklanarak basittir [2].

4. Soru biçimi ve kullanılabilirliği:
- Math-500 soruları daha büyük bir veri kümesinin parçasıdır ve AIME soruları kadar kamuya açık değildir. Veri kümesi, önceden hazırlanmanın belirli sorular üzerindeki etkisi olmadan modellerin matematiksel yeteneklerini değerlendirmek için kullanılır [1].
- AIME 2024 Sorular ve cevaplar herkese açıktır, bu da sorular ön hazırlık korpusuna dahil edilirse model performansını potansiyel olarak etkileyebilir. Bu, eğitim sırasında potansiyel maruz kalma nedeniyle modellerin AIME'nin eski sürümlerinde daha iyi performans gösterdiği gözlemlere yol açmıştır [2].

5. Değerlendirme süitlerinde ağırlıklandırma:
- Hem Math-500 hem de AIME 2024, Yapay Analiz İstihbarat Endeksi'nin bir parçasıdır, ancak bunlar genel endeksin% 25'ini oluşturan matematiksel akıl yürütme bileşeninde eşit olarak ağırlıklandırılır. Bu, her ikisinin de bir modelin matematiksel yeteneklerini değerlendirmeye eşit katkıda bulunduğu anlamına gelir [1].

Özetle, her iki ölçüt de matematiksel akıl yürütmeyi değerlendirirken, zorluk, köken, değerlendirme yöntemleri ve değerlendirdikleri matematiksel becerilerin türü bakımından farklılık gösterirler.

Alıntılar:
[1] https://artificialanalysis.ai/methodology/intelligence-nchmarking
[2] https://www.vals.ai/benchmarks/aime-2025-03-11
[3] https://www.credo.ai/model-trust-scores-ai-evaluation?
[4] https://arxiv.org/html/2502.06781v1
[5] https://github.com/gair-nlp/aime-preview
[6] https://arxiv.org/html/2503.04550
[7] https://huggingface.co/datasets/huggingfaceh4/math-500
[8] https://arxiv.org/html/2410.03131v1