GPT-4.5 평가 : CBRN 및 설득 위험 완화

CBRN 및 설득과 관련된 위험을 완화하는 데 GPT-4.5가 얼마나 효과적입니까?

GPT-4.5는 화학, 생물학적, 방사선 및 핵 (CBRN) 위협 및 설득과 관련된 위험을 완화하는 데있어 효과를 평가했습니다. 다음은 기능 및 완화에 대한 자세한 개요입니다.

cbrn 위험

GPT-4.5는 CBRN 위협의 중간 위험으로 분류됩니다. 이 분류는 알려진 생물학적 위협을 재현하는 운영 계획을 지원하는 모델의 능력을 평가하는 평가를 기반으로합니다. 그러나이 위험은 이미 중요한 도메인 전문 지식을 보유하고있는 전문가들을 지원하기 때문에 제한된 것으로 간주됩니다 [1].

CBRN 위험을 완화하기 위해 GPT-4.5는 몇 가지 전략을 사용합니다.

- 사전 훈련 완화 : 모델은 합법적 인 사용이 제한적이지 않은 CBRN 증식과 관련된 데이터를 걸러냅니다. 이것은 잠재적으로 위험한 정보에 대한 모델의 노출을 줄이는 데 도움이됩니다 [1].
- 모델 견고성 : GPT-4.5는 CBRN 위협과 관련된 조작에 저항하는 능력을 향상시켜 악의적이고 적대적 사용자를 견딜 수 있도록 설계되었습니다 [1].
- 모니터링 및 탐지 : CBRN 작업과 관련된 활동을 모니터링하고 탐지하기 위해 전용 노력이 이루어져 오용이 신속하게 식별되고 해결되도록합니다 [1].

설득 위험

GPT-4.5는 또한 설득에 대한 중간 위험 지정을 가지고 있습니다. 이는 설득력있는 내용을 생성 할 때 최첨단 성과로 인한 것인데, 이는 신념이나 행동을 조작하는 데 사용될 수 있습니다 [2].

설득 위험을 해결하기 위해 GPT-4.5는 다음과 같은 완화를 통합합니다.

- 안전 훈련 :이 모델은 정치적 설득 과제를 책임감있게 처리하기위한 특정 교육을 받았으며, 여론에 영향을 미치거나 조작하는 데 오용을 방지합니다 [1].
- 모니터링 영향 운영 : 영향 작전, 극단주의 및 부적절한 정치 활동과 관련된 의심되는 남용에 대한 지속적인 모니터링 및 조사가 있습니다. 이것은 잠재적 설득 위험을 식별하고 완화하는 데 도움이됩니다 [1].
- 설득 평가 재고 : OpenAI는 실제 설득 위험을 평가하는 데 대한 접근 방식을 재평가하고 콘텐츠 개인화, 배포 및 시간에 따른 프리젠 테이션과 같은 요소에 중점을 둡니다 [2].

전반적으로 GPT-4.5는 CBRN과 설득에 대한 중간 위험을 제시하지만 이러한 위험을 최소화하기 위해 강력한 완화 세트를 사용합니다. 여기에는 고급 필터링, 안전 교육 및 지속적인 모니터링이 포함되어있어 모델을 책임감 있고 안전하게 사용하도록합니다.

인용 :
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://assets.ctfassets.net/kftzwdyauwt9/7eadv6oawhhxlaehuyu7db/64e9f7916d3581ba4b5d0f0a6c5098d1/gpt-4-5_system_card_27225.pdf
[3] https://centerforhealthsecurity.org/sites/default/files/2024-06/2024-06-02-jhchs-nist-ai-6001-rfc.pdf
[4] https://model-scec.openai.com
[5] https://www.reddit.com/r/chatgpt/comments/1iznoek/gpt45_system_card_mmlu_896/
[6] https://pmc.ncbi.nlm.nih.gov/articles/pmc10795998/
[7] https://openai.com/index/gpt-4-5-system-card/
[8] https://patriciagestoso.com/2024/05/21/openai-chatgpt-4o-the-good-the-bad-ble-the-irrsponsible/