GPT-4.5 og GPT-4 står begge over for udfordringer, når de håndterer sprog med lav ressource, men der er nogle forskelle i deres tilgange og ydeevne.
GPT-4 Performance på sprog med lav ressource
GPT-4, som andre store sprogmodeller, har vist imponerende kapaciteter på sprog med høj ressource, men kæmper med sprog med lav ressource. Undersøgelser har indikeret, at GPT-4's præstation på disse sprog ikke er så robust som på engelsk eller andre godt repræsenterede sprog [1] [3]. Dette skyldes delvis de begrænsede træningsdata, der er tilgængelige for disse sprog, hvilket resulterer i mindre effektiv tokenisering og forståelse af sproglige nuancer [1]. Derudover har GPT-4's sikkerhedsfiltre vist sig at være mindre effektive, når man beskæftiger sig med input oversat til lav ressource-sprog, hvilket gør det lettere at omgå beskyttelsesforanstaltninger [5].
GPT-4.5 Forbedringer til sprog med lav ressource
GPT-4.5 sigter mod at forbedre GPT-4's kapaciteter, herunder dens håndtering af sprog med lav ressource. Mens specifikke forbedringer for sprog med lav ressource ikke er i vid udstrækning detaljeret, bemærkes GPT-4.5 at overgå GPT-4 i flersprogede evalueringer. For eksempel viste GPT-4.5 i evalueringer ved hjælp af MMLU-testsættet oversat til 14 sprog, herunder sprog med lav ressource som Yoruba, bedre ydelse sammenlignet med GPT-4 [9]. Dette antyder, at GPT-4.5 kan have forbedret flersproget støtte og potentielt bedre håndtering af sproglige nuancer på sprog med lav ressource.
Imidlertid handler forbedringerne i GPT-4.5 mere om den samlede flersprogede ydeevne snarere end specifikke forbedringer til sprog med lav ressource. Brugen af menneskelige oversættere til evaluering af flersprogede kapaciteter indikerer et fokus på at sikre nøjagtige oversættelser, hvilket indirekte kan gavne sprog med lav ressource ved at give mere pålidelige data til fremtidige forbedringer [9].
Udfordringer og fremtidige retninger
På trods af disse forbedringer står både GPT-4 og GPT-4.5 stadig over for betydelige udfordringer med sprog med lav ressource. Finjustering og specialiserede tilskyndelsesteknikker anbefales ofte for at forbedre ydeevnen på disse sprog [7]. Forskellen i sikkerhed og ydeevne mellem sprog med høj ressource og lav ressource fremhæver behovet for mere inkluderende træningsdata og sikkerhedsprotokoller, der tegner sig for sproglig mangfoldighed [5].
Sammenfattende, mens GPT-4.5 tilbyder nogle forbedringer over GPT-4 i flersprogede sammenhænge, er specifikke forbedringer af sprog med lav ressource ikke i vid udstrækning detaljerede. Yderligere forskning og udvikling er nødvendig for at tackle de vedvarende udfordringer på disse sprog.
Citater:
[1] https://aclanthology.org/2024.findings-emnlp.920.pdf
)
[3] https://www.asianlp.sg/conferences/ialp2024/proceedings/papers/ialp2024_p027.pdf
)
[5] https://arxiv.org/pdf/2310.02446.pdf
)
[7] https://aclanthology.org/2025.coling-main.559.pdf
[8] https://www.reddit.com/r/claudeai/comments/1dqj1lg/claude_35_sonnet_vs_gpt4_a_programmers/
[9] https://cdn.openai.com/gpt-4-5-system-card.pdf