GPT-4.5 nøjagtighed ved fejlfinding og sammenligning af præstationer

Hvordan sammenlignes GPT-4.5's nøjagtighed ved fejlfinding af spørgsmål med GPT-4O og O1

Nøjagtigheden af GPT-4.5 ved fejlfinding af spørgsmål, især i komplekse domæner som multimodal fejlfinding og virologi, er ikke eksplicit detaljeret i de tilgængelige oplysninger. Imidlertid har GPT-4.5 vist forbedringer i visse områder sammenlignet med sine forgængere. For eksempel klarer det sig bedre med at genkende mønstre og tegne forbindelser, hvilket potentielt kan forbedre dens fejlfindingsfunktioner [5].

Med hensyn til specifikke evalueringer fungerer GPT-4.5 generelt på niveau med GPT-4O og O1 i at nægte usikkert indhold og i nogle sikkerhedsrelaterede evalueringer [1] [4]. Men når det kommer til nøjagtighed i besvarelsen af spørgsmål, har GPT-4.5 vist betydelige forbedringer i visse datasæt. For eksempel opnår GPT-4.5 i personqa-datasættet, der evaluerer hallucinationer og nøjagtighed, en nøjagtighed på 0,78 og en hallucinationsgrad på 0,19, hvilket overgår GPT-4O og O1 [1] [4].

I retfærdighed og biasevalueringer udfører GPT-4.5 på samme måde som GPT-4O, men er bedre end O1 med at give uvildige svar til entydige spørgsmål [1] [4]. Mens GPT-4.5 har vist forbedringer i håndtering af modstridende meddelelser og overholdelse af sikkerhedsinstruktioner, er dens samlede nøjagtighed i fejlfindingspørgsmål specifikt ikke direkte sammenlignet med GPT-4O og O1 i de tilgængelige data [1] [4].

Generelt kan GPT-4.5s evne til at genkende mønstre og tegne forbindelser forbedre dens ydeevne i fejlfindingsopgaver, men specifikke sammenligninger i dette domæne er begrænset. Industriobservatører har bemærket forbedringer i visse opgaver, såsom dataekstraktion, hvor GPT-4.5 overgår GPT-4O ved at udtrække felter mere nøjagtigt [7]. Imidlertid leveres detaljerede sammenligninger specifikt til spørgsmål om fejlfinding ikke i de tilgængelige oplysninger.

Citater:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://www.reddit.com/r/chatgptpro/comments/1ggnm90/gpt4o_and_others_provide_more_incorrect_than/
[3] https://www.reddit.com/r/openai/comments/1izp6tt/gpt_45_released_heres_benchmarks/
[4] https://assets.ctfassets.net/kftzwdyauwt9/7eadv6oawhhxlaehuyu7db/64e9f7916d3581ba4b5d0f0a6c5098d1/gpt-4-5_system_card_2272025.pdf
[5] https://www.theverge.com/news/620021/openai-trpt-4-5-orion-i-model-release
)
)
[8] https://community.openai.com/t/GPT-4-VS-TRPT-4O--wich-is-tHe-Better/746991