GPT-4.5 tikslumas atliekant trikčių šalinimo ir našumo palyginimus

Kaip GPT-4.5 tikslumas atliekant trikčių šalinimo klausimus, palyginti su GPT-4O ir O1

GPT-4.5 tikslumas atliekant trikčių šalinimo klausimus, ypač sudėtingose srityse, tokiose kaip multimodalinis trikčių šalinimas ir virusologija, nėra aiškiai išsamiai aprašyta turima informacija. Tačiau GPT-4.5 parodė pagerėjimą tam tikrose srityse, palyginti su jo pirmtakais. Pavyzdžiui, jis geriau veikia atpažindamas modelius ir brėžiant jungtis, o tai gali pagerinti jo trikčių šalinimo galimybes [5].

Kalbant apie konkrečius vertinimus, GPT-4.5 paprastai veikia lygiaverčiai GPT-4O ir O1, atsisakant nesaugaus turinio ir atliekant kai kuriuos su saugumu susijusius vertinimus [1] [4]. Tačiau, kai reikia tiksliai atsakyti į klausimus, GPT-4.5 parodė reikšmingą tam tikrų duomenų rinkinių patobulinimus. Pavyzdžiui, „PersonQA“ duomenų rinkinyje, kuriame įvertinamos haliucinacijos ir tikslumo, GPT-4,5 pasiekia 0,78 tikslumą, o haliucinacijos greitis-0,19, pralenkdamas GPT-4O ir O1 [1] [4].

Sąžiningumo ir šališkumo vertinimuose GPT-4.5 veikia panašiai kaip GPT-4o, tačiau O1 pralenkia pateikdamas nešališkus atsakymus į nedviprasmiškus klausimus [1] [4]. Nors GPT-4.5 parodė patobulinimus tvarkant prieštaringus pranešimus ir laikantis saugos instrukcijų, jo bendras tikslumas atliekant trikčių šalinimo klausimus nėra tiesiogiai palyginti su GPT-4O ir O1 turimuose duomenyse [1] [4].

Apskritai, GPT-4.5 gebėjimas atpažinti modelius ir nubrėžti ryšius gali pagerinti jo veikimą atliekant trikčių šalinimo užduotis, tačiau konkretūs šios srities palyginimai yra riboti. Pramonės stebėtojai atkreipė dėmesį į tam tikrų užduočių patobulinimus, tokius kaip duomenų gavyba, kai GPT-4.5 žymi GPT-4O, tiksliau ištraukiant laukus [7]. Tačiau išsamūs palyginimai, skirti konkrečiai trikčių šalinimo klausimams, nėra pateikiami turima informacija.

Citatos:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
]
[3] https://www.reddit.com/r/openai/comments/1izp6tt/gpt_45_related_heres_benchmarks/
[4] https://assets.ctfassets.net/kftzwdyauwt9/7eadv6oawhxlaehuyu7db/64e9f7916d3581ba4b5d0f0a6c5098d1/gpt-4-5_syst_card_2272025.pdf
[5] https://www.theverge.com/news/620021/openai-gpt-4-5-orion-ai-model-release
]
[7] https://ventureebeat.com/ai/industry-observers-say-gpt-4-5-is-an-odd-model-question-its-price/
[8] https://community.openai.com/t/gpt-4-vs-gpt-4o-wich-is-better/746991