Cómo GPT-5 reduce las tasas de alucinación: curación de datos, capacitación y estrategias de retroalimentación

La reducción de GPT-5 en las tasas de alucinación se atribuye tanto a su curación de datos de capacitación como a las metodologías de capacitación avanzada. Operai ha informado abiertamente que las respuestas GPT-5 tienen hasta un 45% menos de probabilidades de contener errores objetivos en comparación con GPT-4O, y con su modo de "razonamiento avanzado", los errores de hecho caen en aproximadamente un 80% en relación con el modelo O3 anterior. La supresión de las alucinaciones en GPT-5 no es el resultado de un solo conjunto de datos, sino un proceso sofisticado de ensamblaje de datos, filtrado, post-entrenamiento continuo con retroalimentación humana e integración de recursos de control fácticos externos.

Estrategia de calidad y curación de datos

El primer pilar de Openai contra las alucinaciones en GPT-5 es el uso de conjuntos de datos expandidos, de alta calidad y curados. Esto significa:
- Es más probable que los datos de origen sean verificados y de buena reputación.
- Los esfuerzos explícitos se realizan para eliminar o minimizar contenido conocido no confiable, sesgado o malicioso durante la capacitación previa y durante los ciclos de actualización de datos.
-Los datos tratados con el usuario se filtran, se anonimizan y se analizan para la facticidad antes de la inclusión en el ajuste o modelado supervisado de recompensas.

Para reducir aún más el riesgo de alucinación, OpenAI ha implementado extensos procesos de limpieza de datos para identificar y excluir contenido ruidoso, contradictorio o sintético que podría inducir errores en las salidas del modelo.

Post-entrenamiento y refuerzo de la retroalimentación humana (RLHF)

La retroalimentación humana es central en la arquitectura de GPT-5. El modelo sufre rondas intensivas de aprendizaje de refuerzo de la retroalimentación humana (RLHF), en las que los evaluadores humanos:
- Juez salidas por corrección objetiva, coherencia y alineación con la intención del usuario.
- Proporcione preferencias por pares en las generaciones de modelos, recompensando la precisión e información mientras penaliza las alucinaciones.
- Estas señales forman la base para los modelos de recompensa que optimizan aún más a GPT-5 para preferir las finalizaciones objetivamente correctas.

Además, RLHF aumenta por los alumnos de facturidad automatizados validados contra el juicio humano para escalar la detección de alucinaciones. Estos alumnos sirven tanto como un criterio cuantitativo en las evaluaciones y como un componente del entrenamiento continuo, lo que permite bucles de retroalimentación rápida a gran escala más allá de la anotación humana únicamente.

Los puntos de referencia de evaluación y las pruebas de estrés

Para medir las alucinaciones, GPT-5 se prueba rigurosamente de estrés en nuevos puntos de referencia de hechos públicos e internos, tales como LongFact (conceptos y objetos) y HACTScore (indicaciones de búsqueda de hechos). El marco de evaluación se dirige más difíciles, las indicaciones abiertas y el contenido de forma larga, áreas en las que florecieron las alucinaciones previamente. Según Openai, "GPT-5 Thinking" produce unas seis veces menos alucinaciones que O3 en estas tareas.

GPT-5 también se evalúa en el tráfico de producción del mundo real y los conjuntos de pruebas especializadas, donde su capacidad para admitir correctamente las brechas de conocimiento y evitar las fabricaciones se mide y mejora directamente. Por ejemplo, la negativa del modelo a inventar activos inexistentes en entornos multimodales ha mejorado notablemente en comparación con las generaciones anteriores.

Intervenciones arquitectónicas y de entrenamiento

Varias intervenciones más profundas durante las alucinaciones del objetivo de entrenamiento:

-La incrustación de la cadena de pensamiento y el razonamiento estructurado están integrados en fases previas a la capacitación y ajuste, lo que permite que el modelo produzca salidas más explicables y fundamentadas en lugar de conjeturas seguras.
-El paradigma de finalización segura reemplaza el modelo de seguridad basado en rechazo más antiguo, capacitando a GPT-5 para proporcionar respuestas útiles y limitadas o para comunicar transparentemente sus límites y razonamiento cuando no puede responder de manera segura.
-Uso de herramientas y generación de recuperación de la generación de recuperación (RAG): GPT-5 está sistemáticamente capacitado para aprovechar la búsqueda web y las herramientas de verificación de hechos externos para consultas que requieren un conocimiento actualizado o altamente específico. Esto reduce drásticamente el riesgo de alucinaciones en sujetos oscuras o de rápida evolución.
- Reducción de la sycophancy: la tubería de curación de GPT-5 reúne explícitamente los datos diseñados para atrapar modelos en errores de acuerdo, anotando respuestas para la sycofancia y el uso de estos puntajes como una recompensa negativa durante RLHF, atacando directamente la alucinación por el problema del acuerdo.

Resultados y limitaciones del mundo real

A pesar de estos avances, GPT-5 no es completamente inmune a las alucinaciones. Por ejemplo:
-La tasa de alucinación informada para tareas complejas y abiertas (medidas por puntos de referencia como el QA simple) sigue siendo significativa, especialmente cuando el sistema se corta de las herramientas de verificación de hechos en vivo.
- El acceso a la búsqueda web reduce considerablemente las tasas de error, ilustrando la importancia de la capacitación híbrida (que combina datos comisariados estáticos con recuperación) en la moderación de las alucinaciones.
- Ciertas indicaciones creativas o abstractas continúan desafiando los mecanismos de conexión a tierra del sistema.

Actualizaciones continuas y comentarios de la comunidad

El sistema de GPT-5 se alimenta con datos comunitarios y de usuario real en curso, con mecanismos de retroalimentación que permiten parches rápidos de alucinaciones descubiertas y despliegue de refinamientos en el diseño de la función de filtrado de datos y de recompensa. Operai reconoce abiertamente la necesidad de una mejora adicional, especialmente en dominios de alto riesgo como la atención médica y la ley, donde la tolerancia a los errores debe ser mínima.

Resumen de los pasos de curación clave

Para sintetizar, la reducción de las alucinaciones en GPT-5 surge de los siguientes procesos interconectados:

1. Selección y filtrado de datos de pretruento de prioridad, con énfasis en el abastecimiento de bases de datos acreditadas y manteniendo contenido fáctico actualizado.
2. Exclusión de contenido ruidoso, poco confiable o sesgado durante el ensamblaje del conjunto de datos, reforzado por una revisión automatizada y manual en múltiples etapas.
3. Aprendizaje de refuerzo y retroalimentación continua basadas en la clasificación humana y automatizada a gran escala para la fechas y la veracidad.
4. Evaluación contra puntos de referencia de hecho sólidos, tanto estáticos como en el mundo real, que mide la tasa precisa y el tipo de alucinaciones en diversas condiciones.
5. Intervenciones posteriores a la capacitación, incluidas estrategias de finalización más seguras, supresión de la sycofancia explícita e integración fuerte con la recuperación o conocimiento basado en herramientas.
6. Tonte en vivo iterativo de la retroalimentación de producción y el equipo rojo, lo que garantiza que las nuevas fugas de alucinaciones se detecten y aborden rápidamente.

Estas estrategias marcan colectivamente un cambio de la mitigación pasiva a la supresión de alucinación activa y robusta ** Aunque la tarea sigue siendo en evolución, que requiere vigilancia, actualizaciones continuas e inauguración para lograr márgenes de error aún más bajos en el futuro.

Qué conjuntos de datos de entrenamiento o pasos de curación cortan las alucinaciones en GPT-5