Precisione GPT-4.5 nei confronti della risoluzione dei problemi e delle prestazioni

In che modo l'accuratezza di GPT-4.5 sulle domande sulla risoluzione dei problemi è paragonabile a quella di GPT-4O e O1

L'accuratezza di GPT-4.5 sulle domande sulla risoluzione dei problemi, in particolare in settori complessi come la risoluzione multimodale dei problemi e la virologia, non è esplicitamente dettagliata nelle informazioni disponibili. Tuttavia, GPT-4.5 ha mostrato miglioramenti in alcune aree rispetto ai suoi predecessori. Ad esempio, funziona meglio nel riconoscere i modelli e il disegno di connessioni, che potrebbero potenzialmente migliorare le sue capacità di risoluzione dei problemi [5].

In termini di valutazioni specifiche, GPT-4.5 si esibisce generalmente alla pari con GPT-4O e O1 nel rifiutare il contenuto non sicuro e in alcune valutazioni relative alla sicurezza [1] [4]. Tuttavia, quando si tratta di precisione nel rispondere alle domande, GPT-4.5 ha mostrato miglioramenti significativi in alcuni set di dati. Ad esempio, nel set di dati della persona, che valuta le allucinazioni e l'accuratezza, GPT-4.5 raggiunge una precisione di 0,78 e un tasso di allucinazione di 0,19, sovraperformando GPT-4O e O1 [1] [4].

In equità e valutazioni di distorsione, GPT-4.5 si esibisce in modo simile a GPT-4O ma è sovraperformato da O1 nel fornire risposte imparziali a domande inequivocabili [1] [4]. Mentre GPT-4.5 ha dimostrato miglioramenti nella gestione dei messaggi in conflitto e nell'adesione alle istruzioni di sicurezza, la sua precisione complessiva nella risoluzione dei problemi non è direttamente rispetto a GPT-4o e O1 nei dati disponibili [1] [4].

In generale, la capacità di GPT-4.5 di riconoscere i modelli e tracciare connessioni può migliorare le sue prestazioni nelle attività di risoluzione dei problemi, ma i confronti specifici in questo dominio sono limitati. Gli osservatori del settore hanno notato miglioramenti in alcuni compiti, come l'estrazione dei dati, in cui GPT-4.5 supera GPT-4O estraendo i campi in modo più accurato [7]. Tuttavia, non sono forniti confronti dettagliati specificamente per le domande sulla risoluzione dei problemi.

Citazioni:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://www.reddit.com/r/chatgptpro/comments/1ggnm90/gpt4o_and_thers_provide_more_incerrect_than/
[3] https://www.reddit.com/r/openai/comments/1izp6tt/gpt_45_released_heres_benchmarks/
[4] https://assets.ctfassets.net/kftzwdyauwt9/7eadv6oawhhxlaehuyu7db/64e9f7916d3581ba4b5d0f0a6c5098d1/gpt-4-5_system_card_2272025.pdf
[5] https://www.theverge.com/news/620021/openai-gpt-4-5-orion-model-release
[6] https://neoteric.eu/blog/gpt-4-vs-gpt-4-vs-gpt-3-5-comparison-in-real-world-scenarios/
[7] https://venturebeat.com/ai/industry-observers-say-gpt-4-5-is-an-odd-model-question-its-price/
[8] https://community.openai.com/t/gpt-4-vs-gpt-4o-which-is-the-better/746991