Zarówno odniesienia Math-500 i AIME 2024 są wykorzystywane do oceny możliwości rozumowania matematycznego w modelach AI, ale różnią się kilkoma kluczowymi aspektami:
1. Pochodzenie i cel:
-Math-500 pochodzi z większego zestawu danych utworzonego przez Openai, koncentrując się na matematycznym rozwiązywaniu problemów na różnych poziomach trudności. Został zaprojektowany do oceny zdolności modelu do rozwiązywania problemów matematycznych w ogólnym sensie [1].
- Aime 2024 opiera się na American Invitational Mathematics Examination, prestiżowej konkurencji dla uczniów szkół średnich. Testuje zaawansowane umiejętności rozumowania matematycznego, szczególnie w obszarach takich jak algebra, geometria i teoria liczb [2].
2. Poziom trudności:
- Math-500 obejmuje szeroki zakres problemów matematycznych, ale ogólnie jest uważany za mniej trudny niż AIME. Służy do oceny podstawowych możliwości rozumowania matematycznego [1].
- Aime 2024 składa się z bardzo trudnych pytań, które są znacznie trudniejsze niż te w Math-500. Został zaprojektowany w celu oceny zaawansowanych umiejętności matematycznych, często przewyższając możliwości modeli nie uzasadniających, a nawet wydajności człowieka [2].
3. Metoda oceny:
-Math-500 wykorzystuje dwustopniowy mechanizm sprawdzania poprawności odpowiedzi obejmujący ocenianie scenariuszy za pomocą Sympy w celu sprawdzania równości symbolicznej oraz kontrolę równości modelu języka jako kopię zapasową. Zapewnia to precyzyjne ocenianie odpowiedzi matematycznych [1].
- AIME 2024 ocenia modele na podstawie ich zdolności do udzielania poprawnych odpowiedzi numerycznych na pytania. Ocena jest prosta, koncentrując się na dokładności odpowiedzi liczb całkowitych dostarczanych przez modele [2].
4. Format pytań i dostępność:
- Pytania Math-500 są częścią większego zestawu danych i nie są tak publicznie ujawnione jak pytania AIME. Zestaw danych służy do oceny możliwości matematycznych modeli bez wpływu pretracjonowania na konkretne pytania [1].
- Aime 2024 Pytania i odpowiedzi są publicznie dostępne, co może potencjalnie wpłynąć na wydajność modelu, jeśli pytania są zawarte w korpusie pretraining. Doprowadziło to do obserwacji, w których modele osiągają lepsze wyniki w starszych wersjach AIME z powodu potencjalnej ekspozycji podczas szkolenia [2].
5. Ważenie w apartamentach oceniających:
- Zarówno Math-500, jak i Aime 2024 są częścią wskaźnika inteligencji sztucznej analizy, ale są one równie ważone w komponencie rozumowania matematycznego, który stanowi 25% całkowitego wskaźnika. Oznacza to, że oboje w równym stopniu przyczyniają się do oceny zdolności matematycznych modelu [1].
Podsumowując, podczas gdy oba badania testowe oceniają rozumowanie matematyczne, różnią się trudnościami, pochodzeniem, metodami oceny i rodzaju umiejętności matematycznych, które oceniają.
Cytaty:
[1] https://artificialanalysis.ai/methodology/intelligence-benchmarking
[2] https://www.vals.ai/benchmarks/aime-2025-03-11
[3] https://www.credo.ai/model-trust-scores-ai-evaluation?_bhlid=C0CC9970C0C61AAC64F22E2216B45B92BB72C69A
[4] https://arxiv.org/html/2502.06781v1
[5] https://github.com/gair-nlp/aime-preview
[6] https://arxiv.org/html/2503.04550
[7] https://huggingface.co/datasets/huggingfaceh4/math-500
[8] https://arxiv.org/html/2410.03131v1