GPT-4.5 precizitāte uz jautājumiem, īpaši sarežģītās domēnos, piemēram, multimodālā problēmu novēršanā un viroloģijā, nav skaidri aprakstīta pieejamajā informācijā. Tomēr GPT-4.5 ir uzrādījis uzlabojumus noteiktās jomās, salīdzinot ar tā priekšgājējiem. Piemēram, tas labāk darbojas, atpazīstot modeļus un veidojot savienojumus, kas potenciāli varētu uzlabot to problēmu novēršanas iespējas [5].
Attiecībā uz īpašiem novērtējumiem GPT-4.5 parasti darbojas līdzīgi kā GPT-4O un O1, atsakoties no nedroša satura un ar dažiem ar drošību saistītiem novērtējumiem [1] [4]. Tomēr, kad runa ir par precizitāti, atbildot uz jautājumiem, GPT-4.5 ir parādījis būtiskus uzlabojumus noteiktās datu kopās. Piemēram, PersonQA datu kopā, kas novērtē halucinācijas un precizitāti, GPT-4.5 sasniedz precizitāti 0,78 un halucinācijas ātrumu 0,19, pārspējot GPT-4O un O1 [1] [4].
Taisnīguma un neobjektivitātes novērtējumos GPT-4.5 darbojas līdzīgi kā GPT-4O, bet to pārspēj O1, sniedzot objektīvas atbildes uz nepārprotamiem jautājumiem [1] [4]. Kaut arī GPT-4.5 ir pierādījis uzlabojumus konfliktējošu ziņojumu apstrādē un ievērojot drošības instrukcijas, tā vispārējā precizitāte problēmu novēršanas jautājumos nav tieši salīdzināta ar GPT-4O un O1 pieejamajos datos [1] [4].
Kopumā GPT-4.5 spēja atpazīt modeļus un piesaistīt savienojumus var uzlabot tā veiktspēju problēmu novēršanas uzdevumos, bet konkrēti salīdzinājumi šajā jomā ir ierobežoti. Nozares novērotāji ir atzīmējuši uzlabojumus noteiktos uzdevumos, piemēram, datu ieguvei, kur GPT-4.5 pārspēj GPT-4O, precīzāk iegūstot laukus [7]. Tomēr pieejamajā informācijā nav sniegti sīki izstrādāti jautājumi par problēmu novēršanu.
Atsauces:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://www.reddit.com/r/chatgptpro/comments/1ggnm90/gpt4o_and_other_provide_more_incorrect_than/
[3] https://www.reddit.com/r/openai/comments/1izp6tt/gpt_45_releed_heres_benchmarks/
.
[5] https://www.theverge.com/news/620021/openai-gpt-4-5-orion-ai-model-release
[6] https://neoteric.eu/blog/gpt-4o-vs-gpt-4-vs-gpt-3-5-comparison-in-real-world-scenarios/
[7] https://venturebeat.com/ai/industry-observers-say-gpt-4-5-is-an-odd-model-question-its-price/
[8] https://community.openai.com/t/gpt-4-vs-gpt-4o-which-is-the-better/746991