GPT-4.5, l'ultimo modello di Openai, dimostra una significativa riduzione dei tassi di allucinazione rispetto ai suoi predecessori. Sebbene mostra in genere un tasso di allucinazione di circa il 37%, ci sono domini e valutazioni specifiche in cui le sue prestazioni sono notevolmente migliori.
tecniche di riduzione dell'allucinazione
GPT-4.5 impiega nuove tecniche di supervisione, tra cui la messa a punto supervisionata (SFT) e l'apprendimento del rinforzo dal feedback umano (RLHF), che contribuiscono al suo tasso di allucinazione inferiore [1] [3]. Questi metodi aiutano a migliorare l'accuratezza e l'affidabilità del modello garantendo che generano informazioni fondate sui dati fattuali.
prestazioni in domini specifici
- Valutazione di PersonQA: nel set di dati di PersonQA, che mette alla prova la capacità di un modello di rispondere alle domande sulle persone in modo accurato, GPT-4.5 mostra un tasso di allucinazione di circa il 19%. Ciò è inferiore al suo tasso complessivo e indica che nei settori che coinvolgono informazioni fattuali sugli individui, GPT-4.5 si comporta bene con meno allucinazioni [3].
-Attività relative al linguaggio: GPT-4.5 eccelle nelle attività di scrittura e programmazione, offrendo spiegazioni dettagliate e assistenza nella risoluzione pratica dei problemi. Mentre i tassi di allucinazione specifici per questi compiti non sono dettagliati, il miglioramento del modello di riconoscimento del modello e la base di conoscenza più ampia contribuiscono a output più accurati e affidabili [1] [5].
- Confronto con altri modelli: in alcune valutazioni, come il modello di ragionamento O1, il tasso di allucinazione di GPT-4.5 è più elevato (37% contro 44% per O1). Tuttavia, GPT-4.5 è progettato per applicazioni più per uso generale piuttosto che compiti di ragionamento specializzati [5].
Nel complesso, il tasso di allucinazione di GPT-4.5 è particolarmente basso nei settori in cui è stato ampiamente addestrato e valutato, come nel set di dati della persona. Tuttavia, le sue prestazioni possono variare in diversi compiti e valutazioni, riflettendo le sfide in corso nel ridurre le allucinazioni nei modelli di intelligenza artificiale.
Citazioni:
[1] https://topstads.com/openai-release-gpt-4-5/
[2] https://www.reddit.com/r/chatgpt/comments/18kqaom/gpt45turbo_hallucination_explained_with_tests_and/
[3] https://cdn.openai.com/gpt-4-5-system-card.pdf
[4] https://community.openai.com/t/custom-gpt-used-to-work-now-hallucinates-and-does-not-use-specific-data-from-files-as-structed/809849
[5] https://www.channelnewsasia.com/business/openai-tols-out-gpt-45-some-paying-users-expand-access-next-week-4966131
[6] https://www.youtube.com/watch?v=ktwk3hbajdy
[7] https://garymarcus.substack.com/p/gpt-45-is-no-gpt-5
[8] https://www.toolify.ai/gpts/exciting-new-updates-open-source-stable-diffusion-200k-context-claude-21-139386