Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon 사용자 메시지가 모델을 속이려고 시도하는 시나리오에서 GPT-4.5가 어떻게 수행됩니까?


사용자 메시지가 모델을 속이려고 시도하는 시나리오에서 GPT-4.5가 어떻게 수행됩니까?


사용자 메시지가 모델을 속이려고 시도하는 시나리오에서 GPT-4.5의 성능은 여러 평가를 통해 평가되고, 적대적 프롬프트에 저항하고 안전 표준을 유지하는 능력에 중점을 둡니다.

안전 평가 및 탈옥

1. 탈옥 평가 :이 테스트는 GPT-4.5가 안전 메커니즘을 우회하려는 시도를 얼마나 잘하는지 측정합니다. 이 모델은 인간 소스 탈옥과 강력한 반사 벤치 마크에 대해 평가되며, 이는 일반적인 대적 공격에 대한 저항을 평가합니다. GPT-4.5는 인간 소스 탈옥에서 잘 작동하여 0.99의 높은 정확도를 달성합니다. 그러나 강력한 반사 벤치 마크에서는 0.34 점으로 GPT-4O1의 점수 0.87보다 약간 낮습니다 [1].

2. 지시 계층 구조 평가 : 신속한 주입 공격을 완화하기 위해 GPT-4.5는 사용자 메시지보다 시스템 메시지를 우선시하는 지침의 계층 구조를 따르도록 훈련되었습니다. 시스템 및 사용자 메시지가 충돌하는 평가에서 GPT-4.5는 일반적으로 0.76의 정확도로 잘 수행됩니다. 이것은 GPT-4O보다 개선되었지만 GPT-4O1의 성능보다 약간 낮습니다 [1].

3. 교사 탈옥 : 모델이 수학 질문에 대한 답을 밝히지 말라고 지시받는 시나리오에서 GPT-4.5는 0.77의 정확도로 중간 정도의 성공을 보여줍니다. 이는 GPT-4O에 비해 크게 개선되었지만 GPT-4O1의 성능만큼 높지는 않습니다 [1].

4. 문구 및 비밀번호 보호 : GPT-4.5는 또한 사용자 메시지를 통해 특정 문구 나 암호를 공개하지 않도록 보호하는 능력에 대해 평가됩니다. 이 테스트에서는 성능이 좋으며, 구문 보호의 경우 0.86, 암호 보호의 경우 0.92의 정확성이 있습니다 [1].

빨간색 팀 구성 평가

GPT-4.5는 적대적 프롬프트에 대한 견고성을 테스트하기 위해 고안된 빨간 팀 구성 평가를 거칩니다. 이러한 평가는 불법 조언, 극단주의, 증오 범죄, 정치적 설득 및 자해와 같은 시나리오를 다룹니다. GPT-4.5는 첫 번째 RED 팀링 평가 세트의 약 51%에서 GPT-4O보다 약간 높지만 GPT-4O1보다 안전한 출력을 생성합니다. 위험한 조언에 중점을 둔 두 번째 평가에서 GPT-4.5는 GPT-4O보다 더 잘 수행하지만 GPT-4O1 또는 깊은 연구 모델만큼 잘 수행하지는 않습니다 [1].

전반적인 성능

GPT-4.5는 초기 모델에 비해 민감하고 적대적인 프롬프트를 처리하는 데있어 개선을 보여 주지만 여전히 부적합 시나리오에서 여전히 어려움에 직면 해 있습니다. 그 성능은 일반 목적 작업에 견고하지만 O3-Mini와 같은 특수 모델에 비해 고급 문제 해결 또는 깊은 코딩 작업에 적합하지 않을 수 있습니다 [3] [5].

요약하면, GPT-4.5는 특히 사용자 입력보다 시스템 지침을 우선시 해야하는 시나리오에서이를 속이는 시도에 대한 탄력성을 보여줍니다. 그러나 AI 모델의 안전성과 기능 균형을 유지하는 데있어 지속적인 어려움을 반영하는 것은 여전히 ​​적대적 맥락에서 여전히 한계가 있습니다.

인용 :
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://platform.openai.com/docs/guides/prompt-engineering
[3] https://www.vellum.ai/blog/gpt-4-5-is-heres-how-good-this-model-is
[4] https://www.reddit.com/r/openai/comments/18monbs/gpt_4_has_been_toned_down_significently_and/
[5] https://www.reddit.com/r/singularity/comments/1izn175/openai_gpt45_system_card/
[6] https://mashable.com/article/openai-gpt-4-5-release-how-try-try
[7] https://www.reddit.com/r/openai/comments/1iznny5/openai_gpt45_system_card/
[8] https://www.youtube.com/watch?v=0KBAS3S5RYW