GPT-4.5 daugiakalbių galimybių įvertinimas: metodikos ir įžvalgos

Kokios metodikos buvo naudojamos įvertinti GPT-4.5 daugiakalbės galimybes

Norint įvertinti daugiakalbius GPT-4.5 galimybes, „Openai“ naudojo keletą metodikų:

1. Testų rinkinių vertimas: „Openai“ išvertė daugiakalbio masinio kalbos supratimo (MMLU) etalono bandymų rinkinį į 14 kalbų, naudodamas profesionalius žmonių vertėjus. Šis požiūris leido išsamiai įvertinti GPT-4.5 veiklą keliomis kalbomis, įskaitant arabų, bengalų, kinų (supaprastintų), anglų, prancūzų, vokiečių, hindi, indonezijos, italų, japonų, korėjiečių, portugalų (Brazilijos), ispanų, svahilių ir Yorubos [1].

2. Nulio šūvio vertinimas: modelis buvo išbandytas nulinio šūvio nustatyme, tai reiškia, kad jam nebuvo pateikti papildomi mokymo duomenys arba konkrečių kalbų derinimas. Šis metodas įvertina modelio gebėjimą apibendrinti kalbas be aiškių mokymų [1].

3. Palyginimas su ankstesniais modeliais: GPT-4.5 našumas buvo lyginamas su jo pirmtakais, tokiais kaip GPT-4O ir O1, siekiant įvertinti daugiakalbių galimybių patobulinimus. Šis palyginimas padeda nustatyti sritis, kuriose GPT-4.5 yra pažengęs į priekį ir kur vis dar gali prireikti patobulinti [1].

4. Saugos vertinimai: Nors ir ne tik daugiakalbių galimybių, saugos vertinimai taip pat apsvarsto, kaip gerai modelis tvarko įvairius kalbinius įvestis, užtikrinant, kad jis nesukuria kenksmingo ar netinkamo turinio įvairiomis kalbomis [1].

5. Išoriniai vertinimai: „Openai“ greičiausiai pasinaudojo išorinėmis sistemomis ir įrankiais, panašiais į „C-Lara“ platformą, naudojamą įvertinti GPT-4 daugiakalbį apdorojimą, siekiant toliau įvertinti GPT-4.5 kalbos galimybes [4]. Tačiau konkrečios informacijos apie tokių platformų naudojimą GPT-4.5 nėra pateikiama turima informacija.

Šios metodikos kartu pateikia patikimą GPT-4.5 daugiakalbių rezultatų vertinimą, pabrėžiant jos stipriąsias puses ir sritis, skirtas ateityje tobulinti.

Citatos:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://pmc.ncbi.nlm.nih.gov/articles/pmc11348013/
[3] https://openai.com/index/gpt-4-5-system-card/
[4] https://www.researchgate.net/publication/375999167_using_c-lara_to_evaluate_gpt-4's_multilingual_processing
[5] https://www.theverge.com/news/620021/openai-gpt-4-5-orion-ai-model-release
[6] https://www.mdpi.com/2227-7102/14/2/2/148
[7] https://ventureebeat.com/ai/openai-releases-gpt-4-5/
[8] https://techcrunch.com/2025/02/27/openai-unveils-gpt-4-5-orion-ts-lorgest-ai-model-yet/