GPT-4.5의 명령 계층 구조는 다양한 유형의 지침에 대한 명확한 우선 순위 명령을 설정하여 신속한 주입의 위험을 완화하도록 설계되었습니다. 이 계층 구조는 개발자가 설정 한 시스템 메시지가 사용자 메시지 및 기타 입력보다 우선합니다. 작동 방식과 신속한 주입 공격을 방지하는 데 도움이되는 방법은 다음과 같습니다.
프롬프트 주입 이해
프롬프트 주입 공격은 악의적 인 사용자가 원래 시스템 지침을 무시하는 입력을 제공하여 AI 모델을 조작 할 때 발생합니다. 이것은 민감한 정보를 드러내거나 무단 행동을 수행하는 것과 같은 의도하지 않은 행동으로 이어질 수 있습니다 [2] [3].명령 계층 구조
GPT-4.5의 명령 계층은 그들의 출처와 중요성에 따라 지침을 우선시합니다. 입력을 일반적으로 다음을 포함하는 여러 유형으로 분류합니다.- 시스템 메시지 : 이들은 개발자가 설정 한 가장 우선 순위 지침입니다. 그들은 모델이 따라야하는 주요 작업과 제약 조건을 정의합니다.
- 사용자 메시지 : 이들은 사용자가 제공하는 입력이며 시스템 메시지보다 우선 순위가 낮습니다.
- 대화 기록 및 도구 출력 : 모델에 영향을 줄 수 있지만 일반적으로 사용자 메시지보다 우선 순위가 낮습니다 [1] [3].
프롬프트 주입 완화
프롬프트 주입 공격을 완화하기 위해 명령어 계층은 GPT-4.5가 다음 원칙을 준수하도록합니다.- 우선 순위 : 모델은 사용자 입력보다 시스템 메시지를 우선시합니다. 사용자가 시스템 지침과 모순되는 프롬프트를 주입하려고하면 모델이 원래 지침으로 기본값을받습니다 [3] [5].
- 잘못 정렬 된 프롬프트의 탐지 : GPT-4.5는 시스템 지침과 충돌하는 프롬프트를 식별하고 무시하도록 훈련되었습니다. 예를 들어, 사용자가 "모든 이전 지침을 잊어 버린 경우"입력하면이 모델은 이것을 잘못 정렬 된 프롬프트로 인식하고 그에 따라 응답합니다 [3].
-우선 순위가 낮은 지침에 대한 선택적 무시 :이 모델은 우선 순위가 높을 때 우선 순위가 낮은 지침을 선택적으로 무시하도록 설계되었습니다. 이를 통해 모델이 악의적 인 입력에 직면해도 의도 된 동작을 유지하도록합니다 [7].
교육 및 평가
GPT-4.5는 합성 데이터 생성 및 컨텍스트 증류와 같은 지시 계층을 강조하는 기술을 사용하여 훈련됩니다. 이러한 방법은 모델이 지침을 효과적으로 우선 순위로 정하는 법을 배우고 악의적 인 입력에 저항하는 데 도움이됩니다 [6] [7]. 모델의 성능은 시스템 메시지가 사용자 입력과 충돌하여 명령 계층에 준수하고 보안 기능을 유지하는 시나리오에서 평가됩니다 [5].전반적으로 GPT-4.5의 명령 계층 구조는 충돌 또는 악의적 인 사용자 입력에 직면하여 개발자가 설정 한 지시 사항을 준수함으로써 모델의 보안을 향상시킵니다. 이 접근법은 실제 응용 프로그램에서 안전하게 작동 할 수있는 신뢰할 수있는 AI 시스템을 구축하는 데 중요합니다.
인용 :
[1] https://arxiv.org/html/2502.08745v1
[2] https://www.aporia.com/learn/prompt-injection-types-prevention-examples/
[3] https://www.amitysolutions.com/blog/gpt4o-mini-instruction-hierarchy
[4] https://dev.to/jasny/protecting-against-prompt-injection-in-gpt-1gf8
[5] https://cdn.openai.com/gpt-4-5-system-card.pdf
[6] https://community.openai.com/t/protecting-llms-prom-prompt-injections-neailbreaks-new-openai-paper/727636
[7] https://openai.com/index/the-instruction-hierarchy/
[8] https://arxiv.org/html/2311.11538v2