GPT-4.5の多言語機能を評価するために、OpenAIはいくつかの方法論を採用しました。
1。テストセットの翻訳:Openaiは、多言語大規模な言語理解(MMLU)ベンチマークのテストセットを、プロの人間の翻訳者を使用して14の言語に翻訳しました。このアプローチにより、アラビア語、ベンガル語、中国語(単純化)、英語、フランス語、ドイツ語、ヒンディー語、インドネシア語、イタリア語、日本、韓国語、ポルトガル語(ブラジル)、スペイン語、スワヒリ語、ヨルバを含む複数の言語でのGPT-4.5のパフォーマンスの包括的な評価が可能になりました[1]。
2。ゼロショット評価:モデルはゼロショット設定でテストされました。つまり、追加のトレーニングデータや特定の言語の微調整は提供されていません。この方法は、明示的なトレーニングなしで言語間で一般化するモデルの能力を評価します[1]。
3.以前のモデルとの比較:GPT-4.5のパフォーマンスは、多言語機能の改善を評価するために、GPT-4OやO1などの前任者と比較されました。この比較は、GPT-4.5が進んでおり、改善が必要な領域を特定するのに役立ちます[1]。
4。安全評価:多言語機能にのみ焦点を当てていないが、安全評価は、モデルが多様な言語入力をどの程度処理するかを検討し、言語間で有害または不適切なコンテンツを生成しないようにします[1]。
5。外部評価:OpenAIは、GPT-4.5の言語能力をさらに評価するために、GPT-4の多言語処理の評価に使用されるC-LARAプラットフォームと同様に、外部フレームワークとツールを活用する可能性があります[4]。ただし、GPT-4.5のこのようなプラットフォームの使用に関する具体的な詳細は、利用可能な情報には提供されていません。
これらの方法論は、GPT-4.5の多言語パフォーマンスの堅牢な評価を集合的に提供し、将来の改善のためにその強みと領域を強調しています。
引用:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://pmc.ncbi.nlm.nih.gov/articles/pmc11348013/
[3] https://openai.com/index/gpt-4-5-system-card/
[4] https://www.researchgate.net/publication/375999167_using_c-lara_to_evaluate_gpt-4's_multilingual_processing
[5] https://www.theverge.com/news/620021/openai-gpt-4-5-5-Orion-ai-model-release
[6] https://www.mdpi.com/2227-7102/14/2/148
[7] https://venturebeat.com/ai/openai-releases-gpt-4-5/
[8] https://techcrunch.com/2025/02/27/openai-unveils-gpt-4-5-orion-ists-last-ai-model-yet/