GPT-4.5: n suorituskyvyn arviointi vastustavia kehotuksia ja turvamekanismeja vastaan

Kuinka GPT-4.5 toimii skenaarioissa, joissa käyttäjäviestit yrittävät huijata mallia

GPT-4.5: n suorituskyky skenaarioissa, joissa käyttäjäviestit yrittävät huijata mallia arvioidaan useiden arviointien avulla, keskittyen sen kykyyn vastustaa vihollisia kehotuksia ja ylläpitää turvallisuusstandardeja.

Turvallisuusarvioinnit ja jailbreaksit

1. Jailbreak-arvioinnit: Nämä testit mittaavat kuinka hyvin GPT-4,5 vastustaa yrityksiä kiertää turvamekanismeja. Malli arvioidaan ihmisen peräisin olevien vankiloiden ja StrongReject-vertailuarvon kanssa, joka arvioi vastustuskyvyn yleisille vastustajille. GPT-4,5 toimii hyvin ihmisen peräisin olevissa jailbrekkeissä, saavuttaen korkean tarkkuuden 0,99. StrongReject-vertailuarvossa se on kuitenkin 0,34, mikä on hiukan pienempi kuin GPT-4O1: n pistemäärä 0,87 [1].

2. Ohjekierarkian arvioinnit: Nopean injektiohyökkäyksen lieventämiseksi GPT-4.5 on koulutettu noudattamaan ohjeiden hierarkiaa, priorisoimalla järjestelmäviestit käyttäjäviesteihin. Arvioinnissa, joissa järjestelmä- ja käyttäjäviestit ovat ristiriidassa, GPT-4.5 toimii yleensä hyvin, tarkkuudella 0,76. Tämä on parannus GPT-4O: ta verrattuna, mutta hieman GPT-4O1: n suorituskyvyn alapuolella [1].

3. Ohjaaja Jailbreak: Tämä on merkittävä parannus GPT-4O: ta verrattuna, mutta ei niin korkea kuin GPT-4O1: n suorituskyky [1].

4. Lause ja salasanasuojaus: GPT-4.5 arvioidaan myös sen kyvystä suojata tiettyjä lauseita tai salasanoja paljastumiselta käyttäjäviestien kautta. Se toimii hyvin näissä testeissä, ja tarkkuus 0,86 lauseen suojausta varten ja 0,92 salasanan suojausta varten [1].

punainen ryhmittelyarvioinnit

GPT-4.5 käy läpi punaisen ryhmän arvioinnit, joiden tarkoituksena on testata sen kestävyyttä vastustavia kehotuksia vastaan. Nämä arviot kattavat skenaariot, kuten laittomat neuvot, ääriliikkeet, viharikokset, poliittiset vakuuttamisen ja itsensä vahingoittamisen. GPT-4,5 tuottaa turvallisia tuotoksia noin 51%: lla ensimmäisestä punaisesta ryhmän arviointijoukosta, hieman korkeampi kuin GPT-4O, mutta pienempi kuin GPT-4O1. Toisessa arvioinnissa, joka keskittyy riskialttiisiin neuvoihin, GPT-4.5 toimii paremmin kuin GPT-4O, mutta ei yhtä hyvin kuin GPT-4O1 tai syvät tutkimusmallit [1].

Yleinen suorituskyky

Vaikka GPT-4,5 osoittaa parannuksia herkkien ja vastustavien kehotusten käsittelyssä aikaisempiin malleihin verrattuna, sillä on edelleen haasteita erittäin vastustavissa skenaarioissa. Sen suorituskyky on kiinteä yleiskäyttöön tarkoitettuihin tehtäviin, mutta se ei välttämättä ole optimaalinen edistyneille ongelmanratkaisulle tai syville koodaustehtäville verrattuna erikoistuneisiin malleihin, kuten O3-MINI [3] [5].

Yhteenvetona voidaan todeta, että GPT-4.5 osoittaa joustavuutta yrityksille huijata sitä, etenkin skenaarioissa, joissa sen on priorisoitava järjestelmän ohjeet käyttäjän syöttöjen suhteen. Sillä on kuitenkin edelleen rajoituksia erittäin vastustavissa olosuhteissa, mikä heijastaa jatkuvia haasteita turvallisuuden ja toiminnallisuuden tasapainottamisessa AI -malleissa.

Viittaukset:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://platform.openai.com/docs/guides/prompt-Engineering
.
.
[5] https://www.reddit.com/r/singularity/comments/1izn175/openai_gpt45_system_card/
[6] https://mashable.com/article/openai-gpt-4-5-release-how-to-try
[7] https://www.reddit.com/r/openai/comments/1iznny5/openai_gpt45_system_card/
[8] https://www.youtube.com/watch?v=0kbas3s5ryw