GPT-4.5 vs. GPT-4O: riduzione dell'allucinazione e confronto di precisione

In che modo la performance di GPT-4.5 si confronta con GPT-4O in termini di allucinazioni

GPT-4.5 e GPT-4O sono entrambi modelli di linguaggio avanzato sviluppati da Openi, ciascuno con distinti miglioramenti rispetto ai loro predecessori. Quando si confronta le loro prestazioni in termini di allucinazioni, GPT-4.5 dimostra una significativa riduzione dei tassi di allucinazione rispetto a GPT-4O.

Riduzione di allucinazione in GPT-4.5

-Tasso di allucinazione: GPT-4,5 ha un tasso di allucinazione di circa il 19% quando testato sul set di dati di PersonQA, che è un sostanziale miglioramento rispetto al tasso di GPT-4O di circa il 52% [2] [5]. Questa riduzione indica che GPT-4.5 è più affidabile e meno incline alla generazione di informazioni che non sono basate sui dati fattuali.
-Tecniche di miglioramento: la riduzione delle allucinazioni in GPT-4.5 è attribuita a nuove tecniche di supervisione combinate con metodi tradizionali come la messa a punto supervisionato (SFT) e l'apprendimento del rinforzo dal feedback umano (RLHF) [1]. Questi metodi aiutano a migliorare l'accuratezza e l'affidabilità fattuali del modello.

Confronto delle prestazioni

-Precisione: in termini di precisione sul set di dati di PersonQA, GPT-4.5 raggiunge una maggiore precisione del 78%, rispetto al 28%di GPT-4O [2] [5]. Ciò suggerisce che non solo GPT-4.5 allucina meno, ma fornisce anche risposte più accurate.
- Affidabilità complessiva: il tasso di allucinazione inferiore e una maggiore precisione di GPT-4.5 lo rendono una scelta più affidabile per le applicazioni che richiedono informazioni precise e affidabili. Tuttavia, entrambi i modelli funzionano in modo simile in alcune valutazioni, come valutazioni di equità e distorsioni [5].

In sintesi, GPT-4.5 supera GPT-4O in termini di riduzione e accuratezza di allucinazione, rendendolo un'opzione più affidabile per le attività che richiedono informazioni precise e fattuali. Tuttavia, entrambi i modelli hanno i loro punti di forza e di debolezza in diversi settori e valutazioni.

Citazioni:
[1] https://topstads.com/openai-release-gpt-4-5/
[2] https://assets.ctfassets.net/kftzwdyauwt9/7eadv6oawhhxlaehuyu7db/64e9f7916d3581ba4b5d0f0a6c5098d1/gpt-4-5_system_card_2272025.pdf
[3] https://www.reddit.com/r/openai/comments/1izq37r/gpt45s_low_hallucination_rate_is_a_gamechanger/
[4] https://www.techtarget.com/searchenterpriseai/feature/gpt-4o-vs-gpt-4-how-do-they-compare
[5] https://cdn.openai.com/gpt-4-5-system-card.pdf
[6] https://community.openai.com/t/gpt-4-vs-gpt-4o-which-is-the-better/746991
[7] https://mashable.com/article/openai-gpt-4-5-release-how-to-try
[8] https://www.techtarget.com/searchenterpriseai/tip/gpt-35-vs-gpt-4-biggest-differences-to-consider