GPT-4.5 : 상충되는 지침 및 다단계 문제 해결 관리

GPT-4.5는 다단계 문제에서 상충되는 지침을 어떻게 처리합니까?

GPT-4.5는 명령 계층을 준수하여 다단계 문제의 충돌 지침을 처리하도록 설계되었습니다. 이 계층 구조는 모델이 사용자 메시지보다 시스템 메시지를 우선시하여 안전 지침을 무시할 수있는 신속한 주입 및 기타 공격의 위험을 완화하는 데 도움이됩니다 [1] [5].

충돌 지침 처리

1. 교육 계층 평가 : GPT-4.5는 충돌하는 메시지에 직면 할 때 가장 높은 우선 순위 메시지의 지침을 인식하고 따르도록 훈련되었습니다. 여기에는 시스템 메시지 및 사용자 메시지가 충돌하는 시나리오가 포함되며 모델은 [1]를 따라야 할 지침 세트를 선택해야합니다.

2. 시스템 대 사용자 메시지 : 모델은 사용자 메시지를 통해 안전 및 운영 지침을 시행하도록 설계된 시스템 메시지 우선 순위를 정하는 법을 가르칩니다. 이를 통해 GPT-4.5는 사용자가이를 우회하려고 할 때에도 안전 프로토콜을 준수하도록합니다 [1] [5].

3. 현실적인 시나리오 : 평가에는 모델이 튜터 역할을하는 현실적인 시나리오가 포함되어 있으며 사용자의 시도에 저항하여 답변이나 솔루션을 공개하기 위해 속여야합니다. GPT-4.5는 답변을 제공하지 말라고 지시받으며, 사용자가 우회하려는 시도에도 불구하고 이러한 시스템 지침을 따라야합니다 [1].

4. 문구 및 비밀번호 보호 : 다른 유형의 평가에서 GPT-4.5는 특정 문구를 출력하거나 암호를 드러내지 말라고 지시받습니다. 이 모델은이를 속이도록 설계된 사용자 메시지에 저항해야하며, 민감한 정보를 보호하는 능력을 보여줍니다 [1].

다중 단계 문제 처리

GPT-4.5는 상충되는 지침을 효과적으로 처리하도록 설계되었지만, 분명하고 순차적 인 방식으로 프롬프트를 구성함으로써 다단계 문제를 관리하는 능력을 향상시킬 수 있습니다. 여기에는 작업을 더 작은 단계로 나누고 다음 단계로 이동하기 전에 각 단계가 완료되도록하는 것이 포함됩니다 [2]. 그러나 수동 개입없이 멀티 스텝 지침 (예 : "다음"프롬프트)을 자동으로 따르는 GPT-4.5의 성능은 여전히 도전하고있다 [4].

성능 향상

다단계 작업에서 GPT-4.5의 성능을 향상시키기 위해 사용자는 다음과 같은 전략을 사용할 수 있습니다.

- 프롬프트 구조 제거 : 헤더 또는 섹션 마커를 사용하여 각 단계를 명확하게 정의하여 모델이 시퀀스를보다 효과적으로 인식하고 따라갈 수 있도록 도와줍니다 [2].
-순차적 실행 : 다음 단계로 이동하기 전에 각 단계가 완전히 처리되는 단계별 접근 방식을 구현하며, 이는 프롬프트에서 기능과 같은 구조를 사용하여 촉진 할 수 있습니다 [2].
- 수동 개입 : 필요한 경우 모델이 다음 단계로 진행하도록 프롬프트합니다. 그러한 단서없이 자동으로 시퀀스를 통과하지 못할 수 있습니다 [4].

인용 :
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://www.aifire.co/p/detailed-steps-to-build-multi-step-gpts-solve-stasks
[3] https://community.openai.com/t/how-to-deal-with-lazy-gpt-4/689286
[4] https://community.openai.com/t/gpt-getting-stuck-with-multi-step-instructions/613209
[5] https://www.reddit.com/r/singularity/comments/1izn175/openai_gpt45_system_card/
[6] https://community.openai.com/t/how-to-improve-gpt-4-api-output-length-and-structure/1025132
[7] https://www.reddit.com/r/singularity/comments/1iyrwvd/the_information_confirms_gpt45_this_week/
[8] https://www.reddit.com/r/openai/comments/197exmm/gpt4_has_only_been_getting_worse/