Arvioida GPT-4.5: n monikielisiä ominaisuuksia OpenAi käytti useita menetelmiä:
1. Testisarjojen käännös: OpenAi käänsi monikielisen massiivisen kielen ymmärryksen (MMLU) vertailukohdan 14 kielelle ammattimaisten inhimillisten kääntäjien avulla. Tämä lähestymistapa mahdollisti GPT-4.5: n suorituskyvyn kattavan arvioinnin useilla kielillä, mukaan lukien arabia, bengali, kiina (yksinkertaistettu), englanti, ranska, saksa, hindi, indonesia, italia, japanilainen, korea, portugalilainen (Brasilia), espanja, swahili ja yoruba [1].
2. nollavaikutusten arviointi: Malli testattiin nolla-asetuksessa, mikä tarkoittaa, että sitä ei annettu lisäharjoittelutietoilla tai tiettyjen kielten hienosäätöllä. Tämä menetelmä arvioi mallin kykyä yleistää kieliä ilman nimenomaista koulutusta [1].
3. Vertailu aikaisempiin malleihin: GPT-4.5: n suorituskykyä verrattiin sen edeltäjiin, kuten GPT-4O ja O1, arvioidakseen monikielisten ominaisuuksien parannuksia. Tämä vertailu auttaa tunnistamaan alueet, joilla GPT-4.5 on edennyt ja missä se voi silti vaatia parannusta [1].
4. Turvallisuusarvioinnit: Vaikka turvallisuusarvioinnit eivät ole keskittyneet yksinomaan monikielisiin ominaisuuksiin, se harkitsee myös sitä, kuinka hyvin malli käsittelee monipuolisia kielellisiä tuloja varmistaen, että se ei tuota haitallista tai sopimattomia sisältöjä kielillä [1].
5. Ulkoiset arvioinnit: OpenAi todennäköisesti hyödyntänyt ulkoisia kehyksiä ja työkaluja, jotka ovat samanlaisia kuin C-Lara-alusta, jota käytetään GPT-4: n monikielisen prosessoinnin arvioinnissa, GPT-4.5: n kielien kykyjen arvioimiseksi edelleen [4]. Erityisiä yksityiskohtia tällaisten alustojen käytöstä GPT-4.5: lle ei kuitenkaan ole saatavana olevissa tiedoissa.
Nämä menetelmät tarjoavat kollektiivisesti vankan arvion GPT-4.5: n monikielisestä suorituskyvystä, korostaen sen vahvuuksia ja alueita tulevaa parantamista varten.
Viittaukset:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://pmc.ncbi.nlm.nih.gov/articles/PMC11348013/
[3] https://openai.com/index/gpt-4-5-system-card/
.
[5] https://www.theverge.com/news/620021/openai-gpt-4-5-orion-ai-model-release
[6] https://www.mdpi.com/2227-7102/14/2/148
[7] https://venturebeat.com/ai/openai-releases-gpt-4-5/
.