GPT-4.5 Precisión en comparaciones de solución de problemas y rendimiento

¿Cómo se compara la precisión de GPT-4.5 en las preguntas de resolución de problemas con la de GPT-4O y O1?

La precisión de GPT-4.5 en las preguntas de solución de problemas, particularmente en dominios complejos como la resolución de problemas multimodales y la virología, no se detalla explícitamente en la información disponible. Sin embargo, GPT-4.5 ha mostrado mejoras en ciertas áreas en comparación con sus predecesores. Por ejemplo, funciona mejor en el reconocimiento de patrones y conexiones de dibujo, lo que podría mejorar sus capacidades de solución de problemas [5].

En términos de evaluaciones específicas, GPT-4.5 generalmente funciona a la par con GPT-4O y O1 para rechazar contenido inseguro y en algunas evaluaciones relacionadas con la seguridad [1] [4]. Sin embargo, cuando se trata de precisión al responder preguntas, GPT-4.5 ha mostrado mejoras significativas en ciertos conjuntos de datos. Por ejemplo, en el conjunto de datos Personqa, que evalúa las alucinaciones y la precisión, GPT-4.5 logra una precisión de 0.78 y una tasa de alucinación de 0.19, superando a GPT-4O y O1 [1] [4].

En las evaluaciones de equidad y sesgo, GPT-4.5 funciona de manera similar a GPT-4O, pero O1 supera al proporcionar respuestas imparciales a preguntas inequívocas [1] [4]. Si bien GPT-4.5 ha demostrado mejoras en el manejo de mensajes conflictivos y adheridos a las instrucciones de seguridad, su precisión general en las preguntas de solución de problemas específicamente no se compara directamente con GPT-4O y O1 en los datos disponibles [1] [4].

En general, la capacidad de GPT-4.5 para reconocer los patrones y las conexiones de dibujo puede mejorar su rendimiento en las tareas de solución de problemas, pero las comparaciones específicas en este dominio son limitadas. Los observadores de la industria han observado mejoras en ciertas tareas, como la extracción de datos, donde GPT-4.5 supera a GPT-4O extrayendo los campos con mayor precisión [7]. Sin embargo, no se proporcionan comparaciones detalladas específicamente para las preguntas de solución de problemas en la información disponible.

Citas:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://www.reddit.com/r/chatgptpro/comments/1ggnm90/gpt4o_and_others_provide_more_incorrect_than/
[3] https://www.reddit.com/r/openai/comments/1izp6tt/gpt_45_releed_heres_benchmarks/
[4] https://assets.ctfassets.net/kftzwdyauwt9/7eadv6oawhxlaehuyu7db/64e9f7916d3581ba4b5d0f0a6c5098d1/gpt-4-5_system_card_22272025.pdff
[5] https://www.theverge.com/news/620021/openai-gpt-4-5-orion-ai-model-release
[6] https://neoteric.eu/blog/gpt-4o-vs-gpt-4-vs-gpt-3-5-comparison-in-real-world-scenarios/
[7] https://venturebeat.com/ai/industry-observers-say-gpt-4-5-is-an-odd-model-question-its-price/
[8] https://community.openai.com/t/gpt-4-vs-gpt-4o-which-is-the-better/746991