För att utvärdera de flerspråkiga kapaciteterna för GPT-4,5 använde OpenAI flera metoder:
1. Översättning av testuppsättningar: OpenAI översatte testuppsättningen av den flerspråkiga massiva språkförståelsen (MMLU) till 14 språk med professionella mänskliga översättare. Detta tillvägagångssätt möjliggjorde en omfattande bedömning av GPT-4,5: s prestanda på flera språk, inklusive arabiska, bengaliska, kinesiska (förenklade), engelska, franska, tyska, hindi, indonesiska, italienska, japanska, koreanska, portugisiska (Brasilien), spanska, Swahili och Yoruba [1].
2. Utvärdering av nollskott: Modellen testades i en inställning av nollskott, vilket innebär att den inte var försedd med ytterligare träningsdata eller finjustering för specifika språk. Denna metod utvärderar modellens förmåga att generalisera över språk utan uttrycklig träning [1].
3. Jämförelse med tidigare modeller: GPT-4,5: s prestanda jämfördes med dess föregångare, såsom GPT-4O och O1, för att bedöma förbättringar i flerspråkiga kapaciteter. Denna jämförelse hjälper till att identifiera områden där GPT-4,5 har avancerat och där det fortfarande kan kräva förbättring [1].
4. Säkerhetsutvärderingar: Även om de inte uteslutande är inriktade på flerspråkiga kapaciteter, överväger säkerhetsutvärderingar också hur väl modellen hanterar olika språkliga insatser, vilket säkerställer att den inte genererar skadligt eller olämpligt innehåll över språk [1].
5. Externa utvärderingar: OpenAI utnyttjade sannolikt externa ramverk och verktyg, liknande C-LARA-plattformen som används för att utvärdera GPT-4: s flerspråkiga bearbetning, för att ytterligare utvärdera GPT-4,5: s språkfunktioner [4]. Specifika detaljer om användningen av sådana plattformar för GPT-4.5 finns emellertid inte i tillgänglig information.
Dessa metoder ger kollektivt en robust bedömning av GPT-4,5: s flerspråkiga prestanda och belyser dess styrkor och områden för framtida förbättringar.
Citeringar:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://pmc.ncbi.nlm.nih.gov/articles/pmc11348013/
[3] https://openai.com/index/gpt-4-5-system-card/
]
[5] https://www.theverge.com/news/620021/openai-gpt-4-5-orion-ai-model- release
[6] https://www.mdpi.com/227-7102/14/2/148
[7] https://venturebeat.com/ai/openai-releases-gpt-4-5/
]