Evaluación de GPT-4.5: Mitiging CBRN y riesgos de persuasión

¿Qué tan efectivo es GPT-4.5 en la mitigación de riesgos relacionados con CBRN y persuasión?

GPT-4.5 se ha evaluado por su efectividad en la mitigación de riesgos relacionados con amenazas y persuasiones químicas, biológicas, radiológicas y nucleares (CBRN). Aquí hay una descripción detallada de sus capacidades y mitigaciones:

Riesgos CBRN

GPT-4.5 se clasifica como un riesgo medio para las amenazas de CBRN. Esta clasificación se basa en evaluaciones que evalúan la capacidad del modelo para ayudar en la planificación operativa de reproducir amenazas biológicas conocidas. Sin embargo, este riesgo se considera limitado porque principalmente ayuda a expertos que ya poseen una experiencia significativa en el dominio [1].

Para mitigar los riesgos CBRN, GPT-4.5 emplea varias estrategias:

- Mitigaciones previas al entrenamiento: el modelo filtra datos relacionados con la proliferación de CBRN que tiene un uso limitado o ningún uso legítimo. Esto ayuda a reducir la exposición del modelo a información potencialmente peligrosa [1].
- Robustez modelo: GPT-4.5 está diseñado para soportar usuarios maliciosos y adversos al mejorar su capacidad para resistir la manipulación relacionada con las amenazas de CBRN [1].
- Monitoreo y detección: se realizan esfuerzos dedicados para monitorear y detectar actividades relacionadas con las tareas de CBRN, asegurando que cualquier uso indebido se identifique y aborde rápidamente [1].

Riesgos de persuasión

GPT-4.5 también tiene una designación de riesgo medio para la persuasión. Esto se debe a su rendimiento de vanguardia en la generación de contenido persuasivo, que podría usarse para manipular creencias o acciones [2].

Para abordar los riesgos de persuasión, GPT-4.5 incorpora las siguientes mitigaciones:

- Capacitación en seguridad: el modelo sufre una capacitación específica para manejar tareas de persuasión política de manera responsable, con el objetivo de evitar el mal uso para influir o manipular la opinión pública [1].
- Monitoreo de operaciones de influencia: existe un monitoreo e investigación continua de sospechosos de abusos relacionados con la influencia de las operaciones, el extremismo y las actividades políticas inadecuadas. Esto ayuda a identificar y mitigar los riesgos potenciales de persuasión [1].
- Reconsiderando evaluaciones de persuasión: OpenAi está reevaluando su enfoque para evaluar los riesgos de persuasión del mundo real, centrándose en factores como la personalización del contenido, la distribución y la presentación a lo largo del tiempo [2].

En general, mientras GPT-4.5 presenta riesgos medios para CBRN y persuasión, emplea un conjunto robusto de mitigaciones para minimizar estos riesgos. Estos incluyen filtrado avanzado, capacitación en seguridad y monitoreo continuo para garantizar que el modelo se use de manera responsable y de manera segura.

Citas:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://assets.ctfassets.net/kftzwdyauwt9/7eadv6oawhxlaehuyu7db/64e9f7916d3581ba4b5d0f0a6c5098d1/gpt-4-5_system_card_22272025.pdff
[3] https://centerforhealthsecurity.org/sites/default/files/2024-06/2024-06-02-jhchs-nist-ai-6001-rfc.pdf
[4] https://model-spec.openai.com
[5] https://www.reddit.com/r/chatgpt/comments/1iznoek/gpt45_system_card_mmlu_896/
[6] https://pmc.ncbi.nlm.nih.gov/articles/pmc10795998/
[7] https://openai.com/index/gpt-4-5-system-card/
[8] https://patriciagestoso.com/2024/05/21/openai-chatgpt-4o-the-bood-the-bad-and-the-irponsible/