GPT-4.5 osoittaa erityisiä parannuksia GPT-4O: ta verrattuna ristiriitaisten viestien käsittelemiseen sen tehostetun ohjeiden hierarkian avulla. Tämän ominaisuuden avulla malli voi priorisoida järjestelmäviestejä käyttäjäviesteihin verrattuna, lieventää pikainjektioiden ja muiden hyökkäysten riskiä, jotka saattavat ohittaa turvallisuusohjeet. Tässä ovat keskeiset parannukset:
1. Ohjeiden hierarkian arviointi: Arvioinnissa, joissa erityyppiset viestit ovat ristiriidassa keskenään, GPT-4,5 koulutetaan noudattamaan ohjeita ensisijaisessa viestissä. Tämä auttaa mallia käsittelemään paremmin skenaarioita, joissa käyttäjätulot voivat yrittää ohittaa turvallisuusprotokollia.
2. Konfliktien ratkaisu: GPT-4,5 ylittää yleensä GPT-4O: n arvioinnissa, joissa on konflikteja järjestelmän ja käyttäjäviestien välillä. Tämä parannus on ratkaisevan tärkeä turvallisuuden ylläpitämiseksi ja ohjeiden noudattamiselle monimutkaisissa keskustelujen skenaarioissa.
3. Ohjaaja Jailbreaks: Tietyssä skenaariossa, jossa malli toimii matematiikan ohjaajana, GPT-4.5: n kehotusta ei ole paljastamatta vastausta matematiikan kysymykseen. Vaikka GPT-4.5 ei ylitä GPT-4O: ta tässä nimenomaisessa arvioinnissa (GPT-4O: n tarkkuus on suurempi), se osoittaa silti kestävää vastustaa yrityksiä huijata sitä luvattoman tiedon tarjoamiseksi.
4. Lause ja salasanasuojaus: GPT-4.5 näyttää vahvan suorituskyvyn suojaamalla tiettyjä lauseita tai salasanoja paljastumiselta käyttäjän kehotusten avulla. Tämä osoittaa paremman kyvyn ylläpitää luottamuksellisuutta ja noudattaa turvallisuusohjeita verrattuna joihinkin aiempiin malleihin.
Kaiken kaikkiaan GPT-4.5: n parannukset ristiriitaisten viestien käsittelyssä ovat osa sen laajempia turvallisuuden, vivahteiden ja yhteistyön parannuksia, mikä tekee siitä tehokkaamman turvallisen ja asianmukaisen vuorovaikutuksen ylläpitämisessä [1] [3].
Viittaukset:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
.
[3] https://openai.com/index/introducing-gpt-4-5/
.
.
.
[7] https://venturebeat.com/ai/openai-releases-gpt-4-5/
.