Mengevaluasi kemampuan multibahasa GPT-4.5: Metodologi dan Wawasan

Metodologi apa yang digunakan untuk mengevaluasi kemampuan multibahasa GPT-4.5

Untuk mengevaluasi kemampuan multibahasa GPT-4.5, OpenAI menggunakan beberapa metodologi:

1. Terjemahan set tes: OpenAI menerjemahkan set uji Benchmark Multilingual Masive Language Language (MMLU) ke dalam 14 bahasa menggunakan penerjemah manusia profesional. Pendekatan ini memungkinkan penilaian komprehensif kinerja GPT-4.5 di berbagai bahasa, termasuk Arab, Bengali, Cina (disederhanakan), Inggris, Prancis, Jerman, Hindi, Indonesia, Italia, Jepang, Korea, Portugis (Brasil), Spanyol, Swahili, dan Yoruba [1].

2. Evaluasi Zero-Shot: Model diuji dalam pengaturan nol-shot, yang berarti tidak diberikan data pelatihan tambahan atau penyesuaian untuk bahasa tertentu. Metode ini mengevaluasi kemampuan model untuk menggeneralisasi seluruh bahasa tanpa pelatihan eksplisit [1].

3. Perbandingan dengan model sebelumnya: Kinerja GPT-4.5 dibandingkan dengan pendahulunya, seperti GPT-4O dan O1, untuk menilai peningkatan kemampuan multibahasa. Perbandingan ini membantu mengidentifikasi area di mana GPT-4.5 telah maju dan di mana ia masih memerlukan perbaikan [1].

4. Evaluasi Keselamatan: Meskipun tidak secara eksklusif berfokus pada kemampuan multibahasa, evaluasi keselamatan juga mempertimbangkan seberapa baik model menangani beragam input linguistik, memastikan itu tidak menghasilkan konten berbahaya atau tidak pantas di seluruh bahasa [1].

5. Evaluasi Eksternal: Openai kemungkinan memanfaatkan kerangka kerja dan alat eksternal, mirip dengan platform C-LARA yang digunakan untuk mengevaluasi pemrosesan multibahasa GPT-4, untuk menilai lebih lanjut kemampuan bahasa GPT-4.5 [4]. Namun, detail spesifik tentang penggunaan platform tersebut untuk GPT-4.5 tidak disediakan dalam informasi yang tersedia.

Metodologi ini secara kolektif memberikan penilaian yang kuat tentang kinerja multibahasa GPT-4.5, menyoroti kekuatan dan bidangnya untuk peningkatan di masa depan.

Kutipan:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://pmc.ncbi.nlm.nih.gov/articles/pmc11348013/
[3] https://openai.com/index/gpt-4-5-system-card/
[4] https://www.researchgate.net/publication/375999167_using_c-lara_to_evaluate_gpt-4's_multilingual_processing
[5] https://www.theverge.com/news/620021/openai-gpt-4-5-orion-ai-model-release
[6] https://www.mdpi.com/2227-7102/14/2/148
[7] https://ventureBeat.com/ai/openai-releases-gpt-4-5/
[8] https://techcrunch.com/2025/02/27/openai-Unveils-gpt-4-5-orion-its-largest-ai-model-yet/