Evaluación de las capacidades multilingües de GPT-4.5: metodologías e ideas

¿Qué metodologías se utilizaron para evaluar las capacidades multilingües de GPT-4.5?

Para evaluar las capacidades multilingües de GPT-4.5, OpenAI empleó varias metodologías:

1. Traducción de conjuntos de pruebas: OpenAI tradució el conjunto de pruebas de la referencia de comprensión de lenguaje masivo multilingüe (MMLU) en 14 idiomas utilizando traductores humanos profesionales. Este enfoque permitió una evaluación integral del desempeño de GPT-4.5 en múltiples idiomas, incluidos árabe, bengalí, chino (simplificado), inglés, francés, alemán, hindi, indonesio, italiano, japonés, coreano, portugués (Brasil), español, swahili y Yoruba [1].

2. Evaluación de disparo cero: el modelo se probó en una configuración de disparo cero, lo que significa que no se proporcionó con datos de capacitación adicionales o ajuste fino para idiomas específicos. Este método evalúa la capacidad del modelo para generalizar en todos los idiomas sin capacitación explícita [1].

3. Comparación con modelos anteriores: el rendimiento de GPT-4.5 se comparó con sus predecesores, como GPT-4O y O1, para evaluar las mejoras en las capacidades multilingües. Esta comparación ayuda a identificar áreas donde GPT-4.5 ha avanzado y donde aún puede requerir una mejora [1].

4. Evaluaciones de seguridad: aunque no se centran exclusivamente en las capacidades multilingües, las evaluaciones de seguridad también consideran qué tan bien el modelo maneja diversas entradas lingüísticas, asegurando que no genere contenido dañino o inapropiado en todos los idiomas [1].

5. Evaluaciones externas: OpenAI probablemente aprovechó marcos y herramientas externas, similar a la plataforma C-LARA utilizada para evaluar el procesamiento multilingüe de GPT-4, para evaluar aún más las capacidades del lenguaje de GPT-4.5 [4]. Sin embargo, los detalles específicos sobre el uso de tales plataformas para GPT-4.5 no se proporcionan en la información disponible.

Estas metodologías proporcionan colectivamente una evaluación sólida del rendimiento multilingüe de GPT-4.5, destacando sus fortalezas y áreas para una mejora futura.

Citas:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://pmc.ncbi.nlm.nih.gov/articles/pmc11348013/
[3] https://openai.com/index/gpt-4-5-system-card/
[4] https://www.researchgate.net/publication/375999167_using_c-lara_to_evaluate_gpt-4's_multilingual_processing
[5] https://www.theverge.com/news/620021/openai-gpt-4-5-orion-ai-model-release
[6] https://www.mdpi.com/2227-7102/14/2/148
[7] https://venturebeat.com/ai/openai-releases-gpt-4-5/
[8] https://techcrunch.com/2025/02/27/openai-unveils-gpt-4-5-orion-its-largest-ai-model-yet/