GPT-4.5 vs. GPT-4O: Reducción de alucinación y comparación de precisión

¿Cómo se compara el rendimiento de GPT-4.5 con GPT-4O en términos de alucinaciones?

GPT-4.5 y GPT-4O son modelos de lenguaje avanzados desarrollados por OpenAI, cada uno con mejoras distintas sobre sus predecesores. Al comparar su rendimiento en términos de alucinaciones, GPT-4.5 demuestra una reducción significativa en las tasas de alucinación en comparación con GPT-4O.

Reducción de la alucinación en GPT-4.5

-Tasa de alucinación: GPT-4.5 tiene una tasa de alucinación de aproximadamente el 19% cuando se prueba en el conjunto de datos Personqa, que es una mejora sustancial sobre la tasa de GPT-4O de aproximadamente 52% [2] [5]. Esta reducción indica que GPT-4.5 es más confiable y menos propenso a generar información que no se basa en datos de hecho.
-Técnicas de mejora: la reducción de las alucinaciones en GPT-4.5 se atribuye a nuevas técnicas de supervisión combinadas con métodos tradicionales como ajuste fino supervisado (SFT) y el aprendizaje de refuerzo de la retroalimentación humana (RLHF) [1]. Estos métodos ayudan a mejorar la precisión y confiabilidad objetiva del modelo.

Comparación de rendimiento

-Precisión: en términos de precisión en el conjunto de datos Personqa, GPT-4.5 logra una mayor precisión del 78%, en comparación con el 28%de GPT-4O [2] [5]. Esto sugiere que no solo GPT-4.5 alucina menos, sino que también proporciona respuestas más precisas.
- Confiabilidad general: la tasa de alucinación más baja y una mayor precisión de GPT-4.5 lo convierten en una opción más confiable para las aplicaciones que requieren información precisa y confiable. Sin embargo, ambos modelos funcionan de manera similar en ciertas evaluaciones, como evaluaciones de equidad y sesgo [5].

En resumen, GPT-4.5 supera a GPT-4O en términos de reducción y precisión de la alucinación, por lo que es una opción más confiable para las tareas que requieren información precisa y objetiva. Sin embargo, ambos modelos tienen sus fortalezas y debilidades en diferentes dominios y evaluaciones.

Citas:
[1] https://topmostads.com/openai-release-gpt-4-5/
[2] https://assets.ctfassets.net/kftzwdyauwt9/7eadv6oawhxlaehuyu7db/64e9f7916d3581ba4b5d0f0a6c5098d1/gpt-4-5_system_card_22272025.pdff
[3] https://www.reddit.com/r/openai/comments/1izq37r/gpt45s_low_hallucination_rate_is_a_gamechanger/
[4] https://www.techtarget.com/searchenterpriseai/feature/gpt-4o-vs-gpt-4-how-do-they-compare
[5] https://cdn.openai.com/gpt-4-5-system-card.pdf
[6] https://community.openai.com/t/gpt-4-vs-gpt-4o-which-is-the-better/746991
[7] https://mashable.com/article/openai-gpt-4-5-release-dow-to-try
[8] https://www.techtarget.com/searchenterpriseai/tip/gpt-35-vs-gpt-4-biggest-Diferences-to-consider