GPT-4.5: Parannettu suorituskyky ristiriitaisten ohjeiden käsittelyssä

Kuinka GPT-4.5: n suorituskyky verrataan aikaisempiin versioihin ristiriitaisten ohjeiden käsittelyssä

GPT-4.5 osoittaa parannettua suorituskykyä ristiriitaisten ohjeiden käsittelyssä aikaisempiin versioihin verrattuna etenkin sen tehostetun ohjesubian avulla. Tämän ominaisuuden avulla malli voi priorisoida järjestelmäviestit käyttäjän syöttöihin nähden, lieventämällä pikainjektioihin ja muihin hyökkäyksiin liittyviin riskiin, jotka saattavat ohittaa turvallisuusohjeet.

Arvioissa, joissa on ristiriitaisia viestityyppejä, GPT-4.5 ylittää yleensä GPT-4O: n. Malli on koulutettu noudattamaan ohjeita ensisijaisessa viestissä, mikä auttaa skenaarioissa, joissa järjestelmä- ja käyttäjäviestit ovat ristiriidassa. Esimerkiksi skenaariossa, jossa mallia kehotetaan olemaan antamatta vastausta matematiikan kysymykseen, GPT-4.5 osoittaa näiden järjestelmäohjeiden parempaa noudattamista GPT-4O: iin verrattuna, vaikka se ei ylitä GPT-4O1: tä kaikissa arvioinnissa [1].

Lisäksi GPT-4.5 on arvioitu skenaarioissa, joissa sen on suojattava tiettyjä lauseita tai salasanoja paljastumiselta käyttäjän kehotusten avulla. Näissä arvioinnissa GPT-4.5 toimii hyvin, mikä osoittaa sen kyvyn ylläpitää turvallisuutta ja noudattaa järjestelmän ohjeita jopa ristiriitaisten käyttäjän panosten kohdalla [1].

Vaikka GPT-4,5 paranee aikaisemmissa malleissa ristiriitaisten ohjeiden käsittelyssä, sillä on edelleen haasteita tietyissä monimutkaisissa skenaarioissa. Mallin suorituskyky punaisessa ryhmittelyarvioinnissa, jotka simuloivat kilpailevaa kehotusta, osoittaa, että se voi tuottaa vaarallisia lähtöjä joissain tapauksissa, vaikkakin se toimii yleensä paremmin kuin GPT-4O näissä haastavissa testeissä [1].

Kaiken kaikkiaan GPT-4.5: n parannukset ristiriitaisten ohjeiden käsittelyssä tekevät siitä luotettavamman valinnan sovelluksille, jotka vaativat tiukkaa noudattamista turvallisuusohjeita ja järjestelmäohjeita.

Viittaukset:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://gettalative.com/info/gpt-models
.
.
[5] https://www.reddit.com/r/singularity/comments/1izn175/openai_gpt45_system_card/
.
[7] https://www.theverge.com/news/620021/openai-gpt-4-5-orion-ai-model-release
[8] https://www.axios.com/2025/02/27/chatgpt-45-model-openai-reasoning