GPT-4.5 priorisoi järjestelmäviestit käyttäjäviesteihin ohjehierarkian avulla, joka on suunniteltu lieventämään nopean injektiota ja muita hyökkäyksiä, jotka saattavat ohittaa mallin turvallisuusohjeet. Tämä hierarkia luokittelee viestit kahteen päätyyppiin: järjestelmäviestit ja käyttäjäviestit. Järjestelmäviestit ovat pääosin piilotettuja ohjeita, jotka ohjaavat AI: n käyttäytymistä, kun taas käyttäjäviestit ovat käyttäjien tarjoamia tuloja.
GPT-4.5: ssä, kun järjestelmä- ja käyttäjäviestit ovat ristiriidassa, malli on koulutettu noudattamaan järjestelmäviestin ohjeita käyttäjäviestissä. Tämä saavutetaan valvomalla mallia esimerkeissä, joissa tämäntyyppiset viestit ovat ristiriidassa. Malli oppii priorisoimaan järjestelmäviestit turvallisuusohjeiden noudattamisen varmistamiseksi ja ei -toivottujen tulosten estämiseksi.
Esimerkiksi, jos käyttäjä yrittää huijata mallin haitallisen tiedon tarjoamiseen, järjestelmäviesti voi kehottaa mallia kieltäytymään tällaisista pyyntöistä. GPT-4.5: n kyky noudattaa tätä hierarkiaa auttaa ylläpitämään turvallisuusstandardeja ja estämään mallin manipuloimista kielletyn sisällön tuottamiseen.
Tämä lähestymistapa on ratkaisevan tärkeä sen varmistamiseksi, että GPT-4,5 käyttäytyy johdonmukaisesti sen tarkoitettujen turvallisuuden ja eettisten ohjeiden kanssa, jopa silloin, kun he kohtaavat yritykset ohittaa nämä säännöt taitavasti muotoiltujen käyttäjän syöttöjen avulla. Priorisoimalla järjestelmäviestit OpenAI pyrkii parantamaan mallin luotettavuutta ja turvallisuutta eri sovelluksissa [1] [2].
Viittaukset:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
.
[3] https://platform.openai.com/docs/guides/prompt-Engineering
.
[5] https://9meters.com/technology/ai/gpt-4-5-begins-rolling-t-to-plus-an-and-Team-users-next-week-Nen-to-Enterprise-and-Edu-users-the-Following-week
[6] https://arxiv.org/html/2408.10943v1
.
.