GPT-4.5 vs. GPT-4O: Kluczowe ulepszenia w obsłudze sprzecznych wiadomości

Jakie konkretne ulepszenia mają GPT-4.5 w stosunku do GPT-4O w obsłudze sprzecznych wiadomości

GPT-4.5 pokazuje specyficzne ulepszenia w stosunku do GPT-4O w zakresie obsługi sprzecznych wiadomości poprzez ulepszoną hierarchię instrukcji. Ta funkcja pozwala modelowi priorytetowe rozstrzyganie komunikatów systemowych nad komunikatami użytkownika, ograniczając ryzyko szybkich zastrzyków i innych ataków, które mogą zastąpić instrukcje bezpieczeństwa. Oto kluczowe ulepszenia:

1. Ocena hierarchii instrukcji: W ocenie, w których różne typy wiadomości są ze sobą sprzeczne, GPT-4.5 jest szkolony do przestrzegania instrukcji w komunikacie o najwyższym priorytecie. Pomaga to modelowi lepiej obsługiwać scenariusze, w których dane wejściowe użytkowników mogą próbować ominąć protokoły bezpieczeństwa.

2. Rozwiązanie konfliktów: GPT-4.5 ogólnie przewyższa GPT-4O w ocenie obejmujące konflikty między komunikatami systemowymi a użytkownikami. Ta poprawa ma kluczowe znaczenie dla utrzymania bezpieczeństwa i przestrzegania wytycznych w złożonych scenariuszach konwersacyjnych.

3. Jailbreaks Tutor: W określonym scenariuszu, w którym model działa jako nauczyciel matematyki, GPT-4.5 jest pouczony, aby nie ujawniać odpowiedzi na pytanie matematyczne. Chociaż GPT-4.5 nie przewyższa GPT-4O w tej konkretnej oceny (dokładność GPT-4O jest wyższa), nadal wykazuje solidność w opieraniu się próbom oszczędzania go do dostarczenia nieautoryzowanych informacji.

4. Ochrona wyrażenia i hasła: GPT-4.5 pokazuje dobrą wydajność w ochronie określonych fraz lub haseł przed ujawnieniem za pomocą monitów użytkownika. Wskazuje to na lepszą zdolność do zachowania poufności i przestrzegania wytycznych bezpieczeństwa w porównaniu z niektórymi poprzednimi modelami.

Ogólnie rzecz biorąc, ulepszenia GPT-4.5 w zakresie obsługi sprzecznych wiadomości są częścią ich szerszych ulepszeń w zakresie bezpieczeństwa, niuansów i współpracy, co czyni go bardziej skutecznym w utrzymywaniu bezpiecznych i odpowiednich interakcji [1] [3].

Cytaty:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://www.techtarget.com/whatis/feature/gpt-4o-explained-everhing-you-need-to-now
[3] https://openai.com/index/introducing-gpt-4-5/
[4] https://www.techtarget.com/searchenterpriseai/feature/gpt-4o-vs-gpt-4-how-do-hey-compare
[5] https://www.businessinsider.com/openai-sam-altman-releases-gpt-4-5-emotionally-intelligent-model-2025-2
[6] https://litslink.com/blog/gpt-4o-all-you-should-know-about-the-update-and-new-tools
[7] https://venturebeat.com/ai/openai-releases-gpt-4-5/
[8] https://www.reddit.com/r/openai/comments/188t13h/gpt4_has_a_limit_of_40_messages3_hours_now/