GPT-4.5 -parannukset ristiriitaisten ohjeiden ja turvallisuuden parannusten käsittelyssä

Kuinka GPT-4.5: n suorituskyky verrataan aikaisempiin versioihin ristiriitaisten ohjeiden käsittelyssä

GPT-4.5 osoittaa parantuneen suorituskyvyn ristiriitaisten ohjeiden käsittelyssä aikaisempiin versioihin verrattuna etenkin sen parantamalla ohjesuihitusta. Tämän hierarkian avulla malli voi priorisoida järjestelmäviestejä käyttäjän syötteiden suhteen, lieventäen ristiriitaisten kehotusten riskiä. Arvioinnissa GPT-4.5 ylittää yleensä GPT-4O: n skenaarioissa, joissa järjestelmä- ja käyttäjäviestit ovat ristiriidassa, mikä osoittaa paremman kyvyn noudattaa turvallisuusohjeita ja välttää vastustajien kehotuksia [1] [5].

Tärkeimmät parannukset ristiriitaisten ohjeiden käsittelyssä

1. Ohjeiden hierarkian arviointi: GPT-4.5 näyttää parannettua tarkkuutta seuraavien järjestelmän ohjeiden suhteen käyttäjäviesteihin. Esimerkiksi skenaariossa, jossa mallia kehotetaan olemaan antamatta vastausta matematiikan kysymykseen, GPT-4.5 toimii paremmin kuin GPT-4O, vaikkakaan ei yhtä hyvin kuin GPT-4O1 [1].

2. Pitkien injektioiden lieventäminen: Priorisoimalla järjestelmäviestit GPT-4.5 vähentää nopean injektiota ja muita hyökkäyksiä, jotka voisivat ohittaa sen turvallisuusohjeet. Tämä on ratkaisevan tärkeää mallin eheyden ylläpitämiseksi ja väärinkäytön estämiseksi [1] [5].

3. Realistiset skenaariot: Realistisemmissa skenaarioissa, kuten matematiikan ohjaajana toimitettaessa, GPT-4.5 on parempi vastustaa yrityksiä huijata luvattomia tietoja. Sen suorituskyky ei kuitenkaan ole täydellinen, ja se voi vaihdella erityisestä tilanteesta ja annetuista ohjeista [1].

4. Turvallisuusarvioinnit: GPT-4,5 käyvät tiukat turvallisuusarvioinnit varmistaakseen, että se ei noudata haitallista sisältöä koskevia pyyntöjä. Vaikka se toimii hyvin epävakaan sisällön kieltäytymisessä, se voi korjata enemmän kuin aikaisemmat mallit, mikä osoittaa varovaisen lähestymistavan moniselitteisten tai mahdollisesti riskialttiiden kehotusten käsittelemiseen [1].

Kaiken kaikkiaan GPT-4.5 tarjoaa merkittäviä parannuksia ristiriitaisten ohjeiden käsittelyssä noudattamalla tarkemmin järjestelmäohjeita ja vähentämällä vastustajien käyttäjien panosten vaikutusta. Kuten kaikki AI -mallit, se ei kuitenkaan ole immuuni kaikille manipuloinnille ja kehittyy edelleen jatkuvilla turvallisuusarvioinnilla ja päivityksillä [1] [5].

Viittaukset:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://gettalative.com/info/gpt-models
.
.
[5] https://www.reddit.com/r/singularity/comments/1izn175/openai_gpt45_system_card/
.
[7] https://www.theverge.com/news/620021/openai-gpt-4-5-orion-ai-model-release
[8] https://www.axios.com/2025/02/27/chatgpt-45-model-openai-reasoning