GPT-4.5는 명령어 계층을 통해 사용자 메시지보다 시스템 메시지를 우선시합니다. 명령 계층 구조는 모델의 안전 지침을 무시할 수있는 신속한 주입 및 기타 공격의 위험을 완화하도록 설계되었습니다. 이 계층 구조는 메시지를 시스템 메시지와 사용자 메시지의 두 가지 주요 유형으로 분류합니다. 시스템 메시지는 본질적으로 AI의 동작을 안내하는 숨겨진 지침이며 사용자 메시지는 사용자가 제공 한 입력입니다.
GPT-4.5에서 시스템 및 사용자 메시지가 충돌 할 때 모델은 사용자 메시지의 메시지에 대한 시스템 메시지의 지침을 따르도록 교육을받습니다. 이것은 이러한 유형의 메시지가 충돌하는 예제에 대한 모델을 감독함으로써 달성됩니다. 이 모델은 안전 지침 준수를 보장하고 바람직하지 않은 출력을 방지하기 위해 시스템 메시지를 우선 순위를 정하는 법을 배웁니다.
예를 들어, 사용자가 모델을 유해한 정보를 제공하도록 속이는 경우 시스템 메시지는 모델에 그러한 요청을 거부하도록 지시 할 수 있습니다. 이 계층 구조를 준수하는 GPT-4.5의 능력은 안전 표준을 유지하고 모델이 허용되지 않는 컨텐츠를 생성하는 데 조작되는 것을 방지하는 데 도움이됩니다.
이 접근법은 영리하게 제작 된 사용자 입력을 통해 이러한 규칙을 우회하려는 시도에 직면해도 GPT-4.5가 의도 된 안전 및 윤리적 지침과 일관되게 행동하도록하는 데 중요합니다. OpenAI는 시스템 메시지를 우선시함으로써 다양한 응용 프로그램에서 모델의 신뢰성과 보안을 향상시키는 것을 목표로합니다 [1] [2].
인용 :
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://www.prompthub.us/blog/everything-system-messages-to-buse-world-world-prompt-injection-protectors
[3] https://platform.openai.com/docs/guides/prompt-engineering
[4] https://community.openai.com/t/whys-gpt-4o-inely-limited-to-free-users-in-iv-users-literally-rely-gives-you-5-messagesin-5-6-1-6-hours-te-the-the-the-the-the-users/769852
[5] https://9meters.com/technology/ai/gpt-4-5-begins-rolling-to-plus-and-team-users-next-week-to- enterprise-and-edu-users- the-following-week
[6] https://arxiv.org/html/2408.10943v1
[7] https://www.pymnts.com/artificial-intelligence-2/2025/openai-to-release-gpt-4-5-within-weeks-5-within-months/
[8] https://www.reddit.com/r/chatgptpro/comments/13n55w7/highly_efficient_prompt_for_summarizing_gpt4/