사용자 메시지가 모델을 속이려고 시도하는 시나리오에서 GPT-4.5의 성능은 여러 평가를 통해 평가되고, 적대적 프롬프트에 저항하고 안전 표준을 유지하는 능력에 중점을 둡니다.
안전 평가 및 탈옥
1. 탈옥 평가 :이 테스트는 GPT-4.5가 안전 메커니즘을 우회하려는 시도를 얼마나 잘하는지 측정합니다. 이 모델은 인간 소스 탈옥과 강력한 반사 벤치 마크에 대해 평가되며, 이는 일반적인 대적 공격에 대한 저항을 평가합니다. GPT-4.5는 인간 소스 탈옥에서 잘 작동하여 0.99의 높은 정확도를 달성합니다. 그러나 강력한 반사 벤치 마크에서는 0.34 점으로 GPT-4O1의 점수 0.87보다 약간 낮습니다 [1].
2. 지시 계층 구조 평가 : 신속한 주입 공격을 완화하기 위해 GPT-4.5는 사용자 메시지보다 시스템 메시지를 우선시하는 지침의 계층 구조를 따르도록 훈련되었습니다. 시스템 및 사용자 메시지가 충돌하는 평가에서 GPT-4.5는 일반적으로 0.76의 정확도로 잘 수행됩니다. 이것은 GPT-4O보다 개선되었지만 GPT-4O1의 성능보다 약간 낮습니다 [1].
3. 교사 탈옥 : 모델이 수학 질문에 대한 답을 밝히지 말라고 지시받는 시나리오에서 GPT-4.5는 0.77의 정확도로 중간 정도의 성공을 보여줍니다. 이는 GPT-4O에 비해 크게 개선되었지만 GPT-4O1의 성능만큼 높지는 않습니다 [1].
4. 문구 및 비밀번호 보호 : GPT-4.5는 또한 사용자 메시지를 통해 특정 문구 나 암호를 공개하지 않도록 보호하는 능력에 대해 평가됩니다. 이 테스트에서는 성능이 좋으며, 구문 보호의 경우 0.86, 암호 보호의 경우 0.92의 정확성이 있습니다 [1].
빨간색 팀 구성 평가
GPT-4.5는 적대적 프롬프트에 대한 견고성을 테스트하기 위해 고안된 빨간 팀 구성 평가를 거칩니다. 이러한 평가는 불법 조언, 극단주의, 증오 범죄, 정치적 설득 및 자해와 같은 시나리오를 다룹니다. GPT-4.5는 첫 번째 RED 팀링 평가 세트의 약 51%에서 GPT-4O보다 약간 높지만 GPT-4O1보다 안전한 출력을 생성합니다. 위험한 조언에 중점을 둔 두 번째 평가에서 GPT-4.5는 GPT-4O보다 더 잘 수행하지만 GPT-4O1 또는 깊은 연구 모델만큼 잘 수행하지는 않습니다 [1].
전반적인 성능
GPT-4.5는 초기 모델에 비해 민감하고 적대적인 프롬프트를 처리하는 데있어 개선을 보여 주지만 여전히 부적합 시나리오에서 여전히 어려움에 직면 해 있습니다. 그 성능은 일반 목적 작업에 견고하지만 O3-Mini와 같은 특수 모델에 비해 고급 문제 해결 또는 깊은 코딩 작업에 적합하지 않을 수 있습니다 [3] [5].
요약하면, GPT-4.5는 특히 사용자 입력보다 시스템 지침을 우선시 해야하는 시나리오에서이를 속이는 시도에 대한 탄력성을 보여줍니다. 그러나 AI 모델의 안전성과 기능 균형을 유지하는 데있어 지속적인 어려움을 반영하는 것은 여전히 적대적 맥락에서 여전히 한계가 있습니다.
인용 :
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://platform.openai.com/docs/guides/prompt-engineering
[3] https://www.vellum.ai/blog/gpt-4-5-is-heres-how-good-this-model-is
[4] https://www.reddit.com/r/openai/comments/18monbs/gpt_4_has_been_toned_down_significently_and/
[5] https://www.reddit.com/r/singularity/comments/1izn175/openai_gpt45_system_card/
[6] https://mashable.com/article/openai-gpt-4-5-release-how-try-try
[7] https://www.reddit.com/r/openai/comments/1iznny5/openai_gpt45_system_card/
[8] https://www.youtube.com/watch?v=0KBAS3S5RYW