Évaluation GPT-4.5: Antarmant les risques CBRN et persuasion

Quelle est l'efficacité du GPT-4.5 dans l'atténuation des risques liés à la CBRN et à la persuasion

Le GPT-4.5 a été évalué pour son efficacité dans l'atténuation des risques liés aux menaces et à la persuasion chimiques, biologiques, radiologiques et nucléaires (CBRN). Voici un aperçu détaillé de ses capacités et atténuations:

Risques CBRN

GPT-4.5 est classé comme un risque moyen de menaces CBRN. Cette classification est basée sur des évaluations qui évaluent la capacité du modèle à aider à la planification opérationnelle de la reproduction des menaces biologiques connues. Cependant, ce risque est considéré comme limité car il aide principalement les experts qui possèdent déjà une expertise importante du domaine [1].

Pour atténuer les risques CBRN, GPT-4.5 utilise plusieurs stratégies:

- ATTÉRIGATIONS DE PRÉDÉRATION: Le modèle filtre les données liées à la prolifération CBRN qui a une utilisation légitime ou légitime. Cela permet de réduire l'exposition du modèle à des informations potentiellement dangereuses [1].
- Robustesse du modèle: GPT-4.5 est conçu pour résister aux utilisateurs malveillants et contradictoires en améliorant sa capacité à résister à la manipulation liée aux menaces CBRN [1].
- Surveillance et détection: des efforts dédiés sont faits pour surveiller et détecter les activités liées aux tâches CBRN, en veillant à ce que toute utilisation abusive soit rapidement identifiée et abordé [1].

Risques de persuasion

GPT-4.5 comporte également une désignation de risque moyen pour la persuasion. Cela est dû à ses performances de pointe dans la génération de contenu persuasif, qui pourrait être utilisé pour manipuler les croyances ou les actions [2].

Pour faire face aux risques de persuasion, GPT-4.5 intègre les atténuations suivantes:

- Formation en matière de sécurité: Le modèle suive une formation spécifique pour gérer les tâches de persuasion politique de manière responsable, visant à prévenir une mauvaise utilisation pour influencer ou manipuler l'opinion publique [1].
- Surveillance des opérations d'influence: Il existe un suivi et une enquête continus sur des abus suspects liés à l'influence des opérations, à l'extrémisme et à de mauvaises activités politiques. Cela aide à identifier et à atténuer les risques de persuasion potentiels [1].
- Réévaluation de la persuasion: OpenAI réévalue son approche pour évaluer les risques de persuasion du monde réel, se concentrant sur des facteurs tels que la personnalisation, la distribution et la présentation du contenu dans le temps [2].

Dans l'ensemble, bien que GPT-4.5 présente des risques moyens pour le CBRN et la persuasion, il utilise un ensemble robuste d'atténuations pour minimiser ces risques. Ceux-ci incluent le filtrage avancé, la formation à la sécurité et la surveillance continue pour s'assurer que le modèle est utilisé de manière responsable et en toute sécurité.

Citations:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://assets.ctfassets.net/kftzwdyauwt9/7Eadv6oawhhxlaehuyu7db/64e9f7916d3581ba4b5d0f0a6c5098d1/gpt-4-5_system_card_2272025.pdff
[3] https://centerforhealthsecurity.org/sites/default/files/2024-06/2024-06-02-jhchs-nist-ai-6001-rfc.pdf
[4] https://model-scc.openai.com
[5] https://www.reddit.com/r/chatgpt/comments/1iznoek/gpt45_system_card_mmlu_896/
[6] https://pmc.ncbi.nlm.nih.gov/articles/pmc10795998/
[7] https://openai.com/index/gpt-4-5-system-card/
[8] https://patriciagestoso.com/2024/05/21/openai-chatgpt-4o-the-good-the-bad-and-the-irresponsible/