GPT-4.5의 다국어 기능을 평가하기 위해 OpenAI는 몇 가지 방법론을 사용했습니다.
1. 테스트 세트의 번역 : OpenAI는 다국어 대규모 언어 이해 (MMLU) 벤치 마크의 테스트 세트를 전문 인간 번역기를 사용하여 14 개 언어로 번역했습니다. 이 접근법은 아랍어, 벵골어, 중국어 (단순화), 영어, 프랑스어, 독일어, 힌디어, 인도네시아, 이탈리아, 일본어, 한국, 포르투갈어 (브라질), 스페인, 스와힐리어 및 요 루바 등 여러 언어에서 GPT-4.5의 성능에 대한 포괄적 인 평가를 허용했습니다 [1].
2. 제로 샷 평가 : 모델은 제로 샷 설정으로 테스트되었으며, 이는 추가 교육 데이터 또는 특정 언어에 대한 미세 조정이 제공되지 않았습니다. 이 방법은 명시 적 훈련없이 언어를 일반화하는 모델의 능력을 평가합니다 [1].
3. 이전 모델과의 비교 : GPT-4.5의 성능은 다국어 기능의 개선을 평가하기 위해 GPT-4O 및 O1과 같은 전임자와 비교되었습니다. 이 비교는 GPT-4.5가 발전하고 개선이 필요한 곳을 식별하는 데 도움이됩니다 [1].
4. 안전 평가 : 다국어 기능에만 초점을 맞추지는 않지만 안전 평가는 모델이 다양한 언어 입력을 얼마나 잘 처리하는지 고려하여 언어에서 유해하거나 부적절한 컨텐츠를 생성하지 않도록합니다 [1].
5. 외부 평가 : OpenAI는 GPT-4의 다국어 처리를 평가하는 데 사용되는 C-LARA 플랫폼과 유사한 외부 프레임 워크 및 도구를 활용하여 GPT-4.5의 언어 기능을 추가로 평가할 수 있습니다 [4]. 그러나 GPT-4.5에 해당 플랫폼 사용에 대한 구체적인 세부 사항은 사용 가능한 정보에 제공되지 않습니다.
이러한 방법론은 총체적으로 GPT-4.5의 다국어 성능에 대한 강력한 평가를 제공하여 향후 개선을위한 강점과 영역을 강조합니다.
인용 :
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://pmc.ncbi.nlm.nih.gov/articles/pmc11348013/
[3] https://openai.com/index/gpt-4-5-system-card/
[4] https://www.researchgate.net/publication/375999167_using_c-lara_to_valuate_gpt-4's_multingal_processing
[5] https://www.theverge.com/news/620021/openai-gpt-4-5-orion-ai-model reelease
[6] https://www.mdpi.com/2227-7102/14/2/148
[7] https://venturebeat.com/ai/ai/openai-releases-gpt-4-5/
[8] https://techcrunch.com/2025/02/27/openai-unveils-4-5-orion-ist-largest-ai-model-yet/