GPT-4.5: Precisión mejorada con tasas de alucinación reducidas

¿Hay algún dominio donde la tasa de alucinación de GPT-4.5 sea particularmente baja?

GPT-4.5, el último modelo de OpenAI, demuestra una reducción significativa en las tasas de alucinación en comparación con sus predecesores. Si bien generalmente muestra una tasa de alucinación de aproximadamente 37%, hay dominios y evaluaciones específicos en las que su rendimiento es notablemente mejor.

Técnicas de reducción de alucinación

GPT-4.5 emplea nuevas técnicas de supervisión, incluido el ajuste fino supervisado (SFT) y el aprendizaje de refuerzo de la retroalimentación humana (RLHF), que contribuyen a su menor tasa de alucinación [1] [3]. Estos métodos ayudan a mejorar la precisión y confiabilidad del modelo al garantizar que genera información basada en datos de hecho.

rendimiento en dominios específicos

- Evaluación de Personqa: en el conjunto de datos Personqa, que prueba la capacidad de un modelo para responder preguntas sobre las personas con precisión, GPT-4.5 muestra una tasa de alucinación de aproximadamente el 19%. Esto es más bajo que su tasa general e indica que en dominios que involucran información objetiva sobre individuos, GPT-4.5 funciona bien con menos alucinaciones [3].

-Tareas relacionadas con el lenguaje: GPT-4.5 sobresale en tareas de escritura y programación, ofreciendo explicaciones detalladas y asistencia en la resolución práctica de problemas. Si bien las tasas de alucinación específicas para estas tareas no se detallan, el reconocimiento de patrones mejorado del modelo y la base de conocimiento más amplia contribuyen a resultados más precisos y confiables [1] [5].

- Comparación con otros modelos: en ciertas evaluaciones, como el modelo de razonamiento O1, la tasa de alucinación de GPT-4.5 es mayor (37% frente a 44% para O1). Sin embargo, GPT-4.5 está diseñado para aplicaciones más generales de propósito en lugar de tareas de razonamiento especializadas [5].

En general, la tasa de alucinación de GPT-4.5 es particularmente baja en dominios donde ha sido ampliamente capacitado y evaluado, como en el conjunto de datos Personqa. Sin embargo, su rendimiento puede variar en diferentes tareas y evaluaciones, lo que refleja los desafíos continuos para reducir las alucinaciones en los modelos de IA.

Citas:
[1] https://topmostads.com/openai-release-gpt-4-5/
[2] https://www.reddit.com/r/chatgpt/comments/18kqaom/gpt45turbo_hallucination_explaned_with_tests_and/
[3] https://cdn.openai.com/gpt-4-5-system-card.pdf
[4] https://community.openai.com/t/custom-gpt-used-to-work-now-hallucinates-and-does-not-use-specific-data-from-files-as-instructa/8098449
[5] https://www.channelnewsasia.com/business/openai-rollsout-gpt-45-some-paying-users-expand-access-next-week-4966131
[6] https://www.youtube.com/watch?v=ktwk3hbajdy
[7] https://garymarcus.substack.com/p/gpt-45-is-no-gpt-5
[8] https://www.toolify.ai/gpts/exciting-new-updates-open-source-stable-diffusion-200k-context-claude-21-139386