Оценка многоязычных возможностей GPT-4.5: методологии и понимания

Какие методологии использовались для оценки многоязычных возможностей GPT-4.5

Чтобы оценить многоязычные возможности GPT-4.5, OpenAI использовал несколько методологий:

1. Перевод тестовых наборов: Openai переведен тестовый набор многоязычного массивного языкового понимания (MMLU) на 14 языков с использованием профессиональных человеческих переводчиков. Этот подход позволил провести всестороннюю оценку результатов GPT-4.5 на нескольких языках, включая арабский, бенгальский, китайский (упрощенный), английский, французский, немецкий, хинди, индонезийский, итальянский, японский, корейский, португальский (Бразилия), испанский, суахили и йоруба [1].

2. Оценка с нулевым выстрелом: модель была протестирована в схеме с нулевым выстрелом, что означает, что она не была предоставлена дополнительными учебными данными или тонкой настройкой для конкретных языков. Этот метод оценивает способность модели обобщать между языками без явного обучения [1].

3. Сравнение с предыдущими моделями: производительность GPT-4.5 сравнивалась с его предшественниками, такими как GPT-4O и O1, для оценки улучшений в многоязычных возможностях. Это сравнение помогает идентифицировать области, в которых GPT-4.5 продвинулся и где это может потребовать улучшения [1].

4. Оценки безопасности: хотя оценки безопасности не сфокусированы исключительно на многоязычных возможностях, также учитывают, насколько хорошо модель обрабатывает разнообразные лингвистические входы, гарантируя, что она не генерирует вредный или неуместный контент между языками [1].

5. Внешние оценки: OpenAI, вероятно, использовал внешние рамки и инструменты, аналогичные платформе C-LARA, используемой для оценки многоязычной обработки GPT-4, для дальнейшей оценки языковых возможностей GPT-4.5 [4]. Однако конкретные подробности об использовании таких платформ для GPT-4.5 не представлены в доступной информации.

Эти методологии в совокупности обеспечивают многоязычную оценку многоязычной производительности GPT-4.5, подчеркивая ее сильные стороны и области для будущего улучшения.

Цитаты:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://pmc.ncbi.nlm.nih.gov/articles/pmc11348013/
[3] https://openai.com/index/gpt-4-5-system-card/
[4] https://www.researchgate.net/publication/375999167_using_c-lara_to_evaluate_gpt-4's_multilingual_processing
[5] https://www.theverge.com/news/620021/openai-gpt-4-5-orion-ai-model-release
[6] https://www.mdpi.com/2227-7102/14/2/148
[7] https://venturebeat.com/ai/openai-releases-gpt-4-5/
[8] https://techcrunch.com/2025/02/27/openai-unveils-gpt-4-5-orion-its-largest-ai-model-yet/