Avaliação GPT-4.5: Mitigando os riscos de CBRN e persuasão

Quão eficaz é o GPT-4.5 em mitigação de riscos relacionados ao CBRN e persuasão

O GPT-4.5 foi avaliado quanto à sua eficácia na atenuação dos riscos relacionados a ameaças químicas, biológicas, radiológicas e nucleares (CBRN) e persuasão. Aqui está uma visão geral detalhada de suas capacidades e mitigações:

riscos de CBRN

O GPT-4.5 é classificado como um risco médio para ameaças de CBRN. Essa classificação é baseada em avaliações que avaliam a capacidade do modelo de ajudar no planejamento operacional da reprodução de ameaças biológicas conhecidas. No entanto, esse risco é considerado limitado porque ajuda principalmente aos especialistas que já possuem experiência significativa em domínio [1].

Para mitigar os riscos do CBRN, o GPT-4.5 emprega várias estratégias:

- Mitigações de pré-treinamento: o modelo filtra os dados relacionados à proliferação do CBRN que tem uso limitado ou nenhum legítimo. Isso ajuda a reduzir a exposição do modelo a informações potencialmente perigosas [1].
- Robustez do modelo: o GPT-4.5 foi projetado para suportar usuários maliciosos e adversários, melhorando sua capacidade de resistir à manipulação relacionada às ameaças do CBRN [1].
- Monitoramento e detecção: são feitos esforços dedicados para monitorar e detectar atividades relacionadas às tarefas do CBRN, garantindo que qualquer uso indevido seja rapidamente identificado e abordado [1].

riscos de persuasão

O GPT-4.5 também carrega uma designação de risco médio para persuasão. Isso se deve ao seu desempenho de ponta na geração de conteúdo persuasivo, que pode ser usado para manipular crenças ou ações [2].

Para abordar os riscos de persuasão, o GPT-4.5 incorpora as seguintes mitigações:

- Treinamento de segurança: o modelo passa por treinamento específico para lidar com as tarefas de persuasão política com responsabilidade, com o objetivo de evitar o uso indevido de influenciar ou manipular a opinião pública [1].
- Operações de influência do monitoramento: Existe monitoramento e investigação em andamento de suspeitos de abusos relacionados a influência de operações, extremismo e atividades políticas inadequadas. Isso ajuda a identificar e mitigar possíveis riscos de persuasão [1].
- Reconsiderando as avaliações de persuasão: o OpenAI está reavaliando sua abordagem para avaliar os riscos de persuasão do mundo real, concentrando-se em fatores como personalização, distribuição e apresentação de conteúdo ao longo do tempo [2].

No geral, enquanto o GPT-4.5 apresenta riscos médios para o CBRN e a persuasão, ele emprega um conjunto robusto de atenuações para minimizar esses riscos. Isso inclui filtragem avançada, treinamento de segurança e monitoramento contínuo para garantir que o modelo seja usado com responsabilidade e segurança.

Citações:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://assets.ctfassets.net/kftzwdyauwt9/7eadv6oawhhxlaehuyu7db/64e9f7916d3581ba4b5d0f0a6c5098d1/gpt-4-5_system_cards
[3] https://centerforhealthsecurity.org/sites/default/files/2024-06/2024-06-02-jhchs-nist-ai-6001-rfc.pdf
[4] https://model-spec.openai.com
[5] https://www.reddit.com/r/chatgpt/comments/1iznoek/gpt45_system_card_mmlu_896/
[6] https://pmc.ncbi.nlm.nih.gov/articles/pmc10795998/
[7] https://openai.com/index/gpt-4-5-system-card/
[8] https://patriciagestoso.com/2024/05/21/openai-chatgpt-4o-the-good-the-bad-and-the-irresponsible/