GPT-4.5在减轻与化学,生物学,放射学和核(CBRN)威胁和说服力有关的风险方面的有效性进行了评估。这是其功能和缓解措施的详细概述:
CBRN风险
GPT-4.5被归类为CBRN威胁的中等风险。该分类基于评估,以评估该模型协助重现已知生物威胁的运营计划的能力。但是,这种风险被认为是有限的,因为它主要帮助已经具有重要领域专业知识的专家[1]。
为了减轻CBRN风险,GPT-4.5采用了几种策略:
- 训练前缓解:该模型滤除了与CBRN增殖有关的数据,该数据有限或没有合法使用。这有助于减少模型对潜在危险信息的暴露[1]。
- 模型鲁棒性:GPT-4.5旨在通过提高其抵抗与CBRN威胁相关的操纵的能力来承受恶意和对抗用户[1]。
- 监视和检测:为监视和检测与CBRN任务相关的活动做出了专门的努力,以确保迅速识别和解决任何滥用[1]。
##说服风险
GPT-4.5还带有中等风险的说服力。这是由于它在产生有说服力的内容方面的最先进的表现,可以用来操纵信念或行动[2]。
为了解决说服风险,GPT-4.5纳入了以下缓解:
- 安全培训:该模型接受了特定的培训,以负责任地处理政治说服任务,以防止滥用影响或操纵公众舆论[1]。
- 监测影响行动:正在进行的监测和调查与影响行动,极端主义和不当政治活动有关的可疑虐待行为。这有助于识别和减轻潜在的说服风险[1]。
- 重新考虑说服评估:OpenAI正在重新评估其评估现实世界说服风险的方法,重点关注内容个性化,分发和随着时间的表现等因素[2]。
总体而言,虽然GPT-4.5对CBRN和说服都带来了中等风险,但它采用了强大的缓解措施来最大程度地减少这些风险。这些包括高级过滤,安全训练和连续监控,以确保模型被负责任,安全地使用。
引用:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://assets.ctfassets.net/kftzwdyauwt9/7eadv6oawhhxlaehuyu7db/64e9f7916d3581ba4b581ba4b50f0a6c50a6c5098d1/gpt-gpt-4-5_5_system_card_card_card_card_227205.pdff
[3] https://centerforhealthsecurity.org/sites/default/files/2024-06/2024-06-06-02-jhchs-nist-ai-ai-6001-rfc.pdf
[4] https://model-spec.openai.com
[5] https://www.reddit.com/r/chatgpt/comments/1iznoek/gpt45_system_card_mmlu_896/
[6] https://pmc.ncbi.nlm.nih.gov/articles/pmc10795998/
[7] https://openai.com/index/gpt-4-5-system-card/
[8] https://patriciagestoso.com/2024/05/21/openai-chatgpt-4o-the-the-good-the-the-the-bad-and-the-irresponsible/