Hierarchia instrukcji GPT-4.5 została zaprojektowana w celu ograniczenia ryzyka szybkich zastrzyków poprzez ustanowienie wyraźnego kolejności priorytetowej dla różnych rodzajów instrukcji. Ta hierarchia zapewnia, że komunikaty systemowe, które są ustawione przez programistów, mają pierwszeństwo przed komunikatami użytkownika i innymi wejściami. Oto jak to działa i jak pomaga zapobiec szybkim atakom wtrysku:
Zrozumienie szybkich zastrzyków
Szybkie ataki wtrysku występują, gdy złośliwe użytkownicy manipulują modelem AI, zapewniając dane wejściowe, które zastępują oryginalne instrukcje systemu. Może to prowadzić do niezamierzonego zachowania, takich jak ujawnienie poufnych informacji lub wykonywanie nieautoryzowanych działań [2] [3].Hierarchia instrukcji
Hierarchia instrukcji w GPT-4.5 priorytetowo traktuje instrukcje na podstawie ich źródła i znaczenia. Kategoryzuje dane wejściowe na kilka rodzajów, zwykle obejmują:- Komunikaty systemowe: Są to instrukcje o najwyższym priorytecie ustalonym przez programistów. Definiują podstawowe zadania i ograniczenia, które powinien podążać model.
- Wiadomości użytkowników: Są to dane wejściowe dostarczone przez użytkowników i są uważane za niższe niż komunikaty systemowe.
- Historia rozmowy i wyniki narzędzi: mogą one również wpływać na model, ale na ogół są niższe niż komunikaty użytkownika [1] [3].
łagodzenie szybkich zastrzyków
Aby złagodzić szybkie ataki wtrysku, hierarchia instrukcji zapewnia, że GPT-4.5 przestrzega następujących zasad:- Priorytetyzacja: Model priorytetowo traktuje komunikaty systemowe nad wejściami użytkowników. Jeśli użytkownik próbuje wstrzyknąć monit, który zaprzecza instrukcjom systemu, model będzie domyślnie na oryginalnym wytycznym [3] [5].
- Wykrywanie niewłaściwych podpowiedzi: GPT-4.5 jest szkolony do identyfikacji i ignorowania podpowiedzi, które są sprzeczne z instrukcjami systemowymi. Na przykład, jeśli użytkownik wprowadza „zapomnij o wszystkich poprzednich instrukcjach”, model rozpozna to jako niewspółponowaną monit i odpowiednio zareaguje [3].
-Selektywne ignorowanie instrukcji o niższym priorytecie: Model jest zaprojektowany w celu selektywnego ignorowania instrukcji o niższym priorytecie, gdy są one sprzeczne z wyższymi priorytetem. Zapewnia to, że model zachowuje zamierzone zachowanie, nawet gdy jest w obliczu złośliwych danych wejściowych [7].
Szkolenie i ocena
GPT-4.5 jest szkolony przy użyciu technik, które podkreślają hierarchię instrukcji, takich jak generowanie danych syntetycznych i destylacja kontekstowa. Metody te pomagają modelowi nauczyć się skutecznie priorytetowo traktować instrukcje i opierać się złośliwym wkładom [6] [7]. Wydajność modelu jest oceniana w scenariuszach, w których komunikaty systemowe są sprzeczne z wejściami użytkowników, zapewniając, że przestrzega hierarchii instrukcji i utrzymuje swoje funkcje bezpieczeństwa [5].Ogólnie rzecz biorąc, hierarchia instrukcji w GPT-4.5 zwiększa bezpieczeństwo modelu, zapewniając, że przestrzega zamierzonych instrukcji ustalonych przez programistów, nawet w obliczu sprzecznych lub złośliwych danych wejściowych użytkowników. Podejście to ma kluczowe znaczenie dla budowania godnych zaufania systemów AI, które mogą bezpiecznie działać w rzeczywistości.
Cytaty:
[1] https://arxiv.org/html/2502.08745v1
[2] https://www.aporia.com/learn/promptinction-types-prevention-examples/
[3] https://www.amitysolutions.com/blog/gpt4o-min-instruction-hierarchia
[4] https://dev.to/jasny/protecting-against-promptinction-in-gpt-1gf8
[5] https://cdn.openai.com/gpt-4-5-system-card.pdf
[6] https://community.openai.com/t/protecting-llms-prompt-inactions-and-jailbreaks-new-openai-paper/727636
[7] https://openai.com/index/the-instruction-hierarchy/
[8] https://arxiv.org/html/2311.11538v2