GPT-4.5: Ristiriitaisten ohjeiden ja sopeutumiskyvyn käsittely

Voiko GPT-4.5 sopeutua uusiin ristiriitaisiin ohjeisiin, joita sillä ei ole koulutettu

GPT-4.5 on suunniteltu käsittelemään ristiriitaisia ohjeita ohjehierarkian avulla, joka priorisoi käyttäjäviestien järjestelmäviestit riskien lieventämiseksi, kuten nopeat injektiot ja muut turvallisuusohjeet ohittavat hyökkäykset [1]. Se, pystyykö GPT-4.5 sopeutua uusiin ristiriitaisiin ohjeisiin, joita se ei ole koulutettu, on monimutkainen kysymys.

Koulutus ja arviointi

GPT-4.5 on koulutettu käyttämällä uusia valvontatekniikoita yhdistettynä perinteisiin menetelmiin, kuten valvottu hienosäätö (SFT) ja vahvistusoppiminen ihmisen palautteesta (RLHF) [1]. Näiden menetelmien tavoitteena on parantaa mallin suuntausta käyttäjän aikomuksen kanssa ja sen kyky noudattaa ohjeita tarkemmin. Malli on arvioitu erilaisissa skenaarioissa, joissa järjestelmä- ja käyttäjäviestit ovat ristiriidassa, mikä osoittaa parannuksia aiempiin malleihin, kuten GPT-4O [1].

sopeutumiskyky uusiin ristiriitaisiin ohjeisiin

Vaikka GPT-4.5 osoittaa paremman suorituskyvyn käsitellessä tunnetut ristiriitaiset ohjeet, sen kyky sopeutua täysin uusiin konflikteihin riippuu useista tekijöistä:

1. Yleistymismahdollisuudet: GPT-4.5: n koulutus sisältää valvontaa käyttämättömän oppimisen, mikä parantaa sen kykyä yleistää ja ymmärtää laajempia tilanteita [1]. Tämä voi auttaa sitä tunnistamaan malleja uusissa ristiriitaisissa ohjeissa.

2. Ohje hierarkia: Mallin ohjehierarkia on suunniteltu priorisoimaan järjestelmäviestit, mikä auttaa ylläpitämään ennalta määritettyjen sääntöjen turvallisuutta ja noudattamista. Jos uudet ristiriitaiset ohjeet kuuluvat tämän hierarkian ulkopuolelle, malli saattaa kamppailee sopeutuakseen ilman lisäkoulutusta tai hienosäätöä.

3. PROPEAD -tekniikka ja rakennustelineet: Käyttäjät voivat käyttää edistyneitä kehotustekniikoita tai telineitä ohjaamaan mallia ymmärtämään ja noudattamaan uusia ohjeita. Tämä lähestymistapa voi auttaa saamaan aikaan käyttäytymisen lisäksi, mitä malli on nimenomaisesti koulutettu [1].

4. Rajoitukset ja turvallisuusarvioinnit: Parannuksista huolimatta GPT-4,5 kohtaa edelleen haasteita monimutkaisten tai uusien skenaarioiden käsittelyssä. Turvallisuusarvioinnit ovat osoittaneet, että vaikka malli suorittaa hyvin tunnettuihin tehtäviin, on aina vaara, että se ei noudattaisi ohjeita odottamattomissa tilanteissa [1].

johtopäätös

Vaikka GPT-4.5 on kykenevämpi kuin edeltäjänsä ristiriitaisten ohjeiden käsittelyssä, sen sopeutumiskykyä täysin uudentyyppisiin konflikteihin rajoittaa sen koulutustiedot ja suunnittelu. Se voi vaatia ylimääräisiä hienosäätöä tai luovia kehotusstrategioita uusien skenaarioiden tehokkaaseen käsittelyyn. Meneillään oleva tutkimus- ja käyttäjän vuorovaikutus GPT-4.5: n kanssa antaa enemmän tietoa sen ominaisuuksista ja rajoituksista tällä alueella.

Viittaukset:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
.
[3] https://latenode.com/blog/chatgpt-4-5-review
[4] https://arxiv.org/pdf/2203.02155.pdf
[5] https://www.theverge.com/news/620067/openai-gpt-4-5-nearly-here
.
.
.