Jak GPT-4.5 radzi sobie z sprzecznymi wiadomościami z hierarchią instrukcji i dopracowaniem

Jakich konkretnych technik używa GPT-4.5 do obsługi sprzecznych wiadomości

GPT-4.5 wykorzystuje kilka technik obsługi sprzecznych wiadomości, szczególnie poprzez system hierarchii instrukcji. Niniejsza hierarchia ustanawia priorytetowe kolejność komunikatów, zapewniając priorytetowe priorytety komunikaty systemowe nad komunikatami użytkownika, historii rozmowy i wyjściami narzędzi [1] [2].

Hierarchia instrukcji

1. Wiadomości systemowe vs. Wiadomości użytkownika: GPT-4.5 jest szkolony do przestrzegania instrukcji w wiadomościach systemowych przez sprzeczne komunikaty użytkownika. Ma to kluczowe znaczenie w scenariuszach, w których dane wejściowe użytkownika mogą próbować zastąpić wytyczne dotyczące bezpieczeństwa lub sformatowanie reguł ustawionych przez system [1] [2].

2. Rozwiązanie konfliktów: Model jest oceniany pod kątem jego zdolności do rozwiązywania konfliktów między różnymi rodzajami komunikatów. Na przykład, jeśli komunikat systemowy instruuje model, aby nie ujawniał określonej frazy lub hasła, a komunikat użytkownika próbuje oszukać model, GPT-4.5 jest zaprojektowany tak, aby przestrzegał instrukcji wiadomości systemowej [1].

3. Szkolenie i ocena: GPT-4.5 przechodzi szeroko zakrojone szkolenie i ocenę, aby upewnić się, że może obsługiwać złożone scenariusze, w których konflikt komunikatów systemowych i użytkowników. Obejmuje to scenariusze, w których model musi wybierać między przestrzeganiem instrukcji systemu lub żądaniem użytkownika, które go zaprzecza [1] [2].

Nadzorowane dopasowanie (SFT)

GPT-4.5 wykorzystuje również nadzorowane dostrajanie (SFT), co obejmuje szkolenie modelu na określonych przykładach, w których obecne są sprzeczne wiadomości. Ta technika pomaga poprawić zdolność modelu do rozpoznawania i ustalania priorytetów instrukcje systemu nad wejściami użytkowników, zwiększając jego wydajność w zakresie obsługi sprzecznych scenariuszy [3].

Nowe techniki wyrównania

Ponadto GPT-4.5 zawiera nowe techniki wyrównania, które zwiększają jego zrozumienie ludzkich preferencji i zamiarów. Techniki te pomagają modelu lepiej interpretować kontekst i zamiar komunikatów systemowych, jak i użytkowników, umożliwiając podejmowanie bardziej świadomych decyzji podczas obchodzenia się z konfliktami [5].

Ogólnie rzecz biorąc, podejście GPT-4.5 do obsługi sprzecznych komunikatów łączy zaawansowane metody szkolenia z ustrukturyzowaną hierarchią instrukcji, aby zapewnić, że model priorytetowo traktuje bezpieczeństwo i przestrzeganie wytycznych systemowych.

Cytaty:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://arxiv.org/html/2502.08745v1
[3] https://www.vellum.ai/blog/gpt-4-5-is-here-heres-how-good-this-model-is
[4] https://community.openai.com/t/how-to-improve-gpt-4-api -utput długość-andructure/1025132
[5] https://venturebeat.com/ai/openai-releases-gpt-4-5/
[6] https://community.openai.com/t/how-to-deal-with-lazy-gpt-4/689286
[7] https://openai.com/index/introducing-gpt-4-5/
[8] https://www.reddit.com/r/openai/comments/18monbs/gpt_4_has_been_toned_down_significly_and/