GPT-4.5 está diseñado para manejar instrucciones conflictivas a través de una jerarquía de instrucciones, que prioriza los mensajes del sistema sobre los mensajes de usuario para mitigar los riesgos como inyecciones de inmediato y otros ataques que anulan las instrucciones de seguridad [1]. Sin embargo, si GPT-4.5 puede adaptarse a nuevos tipos de instrucciones conflictivas en las que no ha sido entrenado es una pregunta compleja.
Entrenamiento y evaluación
GPT-4.5 ha sido entrenado utilizando nuevas técnicas de supervisión combinadas con métodos tradicionales como ajuste fino supervisado (SFT) y el aprendizaje de refuerzo de la retroalimentación humana (RLHF) [1]. Estos métodos tienen como objetivo mejorar la alineación del modelo con la intención del usuario y su capacidad para seguir las instrucciones con mayor precisión. El modelo ha sido evaluado en varios escenarios en los que el sistema y los mensajes de usuario entran en conflicto, que muestran mejoras sobre modelos anteriores como GPT-4O [1].
Adaptabilidad a nuevas instrucciones conflictivas
Si bien GPT-4.5 demuestra un mejor rendimiento en el manejo de tipos conocidos de instrucciones conflictivas, su capacidad para adaptarse a tipos de conflictos completamente nuevos depende de varios factores:
1. Capacidades de generalización: la capacitación de GPT-4.5 incluye escalar el aprendizaje no supervisado, lo que mejora su capacidad para generalizar y comprender contextos más amplios [1]. Esto podría ayudarlo a reconocer patrones en nuevas instrucciones conflictivas.
2. Jerarquía de instrucciones: la jerarquía de instrucciones del modelo está diseñada para priorizar los mensajes del sistema, lo que ayuda a mantener la seguridad y el cumplimiento de las reglas predefinidas. Sin embargo, si las nuevas instrucciones conflictivas quedan fuera del alcance de esta jerarquía, el modelo podría tener dificultades para adaptarse sin entrenamiento adicional o ajuste fino.
3. Ingeniería rápida y andamio: los usuarios pueden emplear técnicas avanzadas de indemnización o andamios para guiar el modelo hacia la comprensión y seguir nuevas instrucciones. Este enfoque puede ayudar a provocar comportamientos más allá de lo que el modelo fue entrenado explícitamente para [1].
4. Limitaciones y evaluaciones de seguridad: a pesar de las mejoras, GPT-4.5 todavía enfrenta desafíos en el manejo de escenarios complejos o novedosos. Las evaluaciones de seguridad han demostrado que si bien el modelo funciona bien en las tareas conocidas, siempre existe el riesgo de que no siga las instrucciones en contextos imprevistos [1].
Conclusión
Si bien GPT-4.5 es más capaz que sus predecesores en el manejo de instrucciones conflictivas, su adaptabilidad a los tipos de conflictos completamente nuevos está limitada por sus datos y diseño de capacitación. Puede requerir estrategias adicionales de ajuste fino o de incitación creativa para manejar de manera efectiva escenarios novedosos. La investigación en curso y las interacciones de los usuarios con GPT-4.5 proporcionarán más información sobre sus capacidades y limitaciones en esta área.
Citas:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://assets.anthropic.com/m/983c85a201a962f/original/alignment-faking-in-large-language-models-full-paper.pdf
[3] https://latenode.com/blog/chatgpt-4-5-review
[4] https://arxiv.org/pdf/2203.02155.pdf
[5] https://www.theverege.com/news/620067/openai-gpt-4-5-nearly-here
[6] https://community.openai.com/t/gpt-4o-not-following-simple-and-cear-instructions/768674
[7] https://www.reddit.com/r/singularity/comments/1bgpmnv/lets_say_gpt45_releases_next_week_what_are_your/
[8] https://www.reddit.com/r/openai/comments/18monbs/gpt_4_has_been_toned_down_significantanty_and/