GPT-4.5 Instrukciju hierarhija: konfliktējošu ziņojumu apstrāde

Kā GPT-4.5 apstrādā pretrunīgas instrukcijas starp sistēmas un lietotāja ziņojumiem

GPT-4.5 ir paredzēts, lai apstrādātu pretrunīgas instrukcijas starp sistēmu un lietotāja ziņojumiem, izmantojot instrukciju hierarhiju. Šī hierarhija palīdz modelim noteikt prioritāti sistēmas ziņojumiem, salīdzinot ar lietotāja ziņojumiem, lai mazinātu riskus, kas saistīti ar pretrunīgām uzvednēm, piemēram, tūlītējas injekcijas vai citi uzbrukumi, kas varētu ignorēt modeļa drošības instrukcijas.

instrukciju hierarhijas galvenās iezīmes

1. Ziņojuma klasifikācija: GPT-4.5 atšķir divu veidu ziņojumus: sistēmas ziņojumus un lietotāja ziņojumus. Sistēmas ziņojumi tiek uzskatīti par augstāku autoritāti, un tos izmanto, lai iestatītu drošības vadlīnijas vai īpašas instrukcijas modelim.

2. Konfliktu risināšana: kad sistēmas un lietotāja ziņojumi ir konflikts, GPT-4.5 ir apmācīts ievērot instrukcijas sistēmas ziņojumā. Tas nodrošina, ka modelis ievēro drošības vadlīnijas un neiesaistās kaitīgās vai neatļautās darbībās.

3. Novērtēšana un apmācība: modelis tiek novērtēts pēc tā spējas rīkoties ar konfliktiem, izmantojot dažādus scenārijus. Piemēram, scenārijā, kurā modelim tiek uzdots nesniegt atbildi uz matemātikas problēmu (sistēmas ziņojums), un lietotājs mēģina to darīt to darīt (lietotāja ziņojums), GPT-4.5 ir jāizturas pret lietotāja mēģinājumu un jāievēro sistēmas instrukcija.

4. Veiktspēja: GPT-4.5 parasti labi darbojas šajos novērtējumos, parādot uzlabojumus salīdzinājumā ar iepriekšējiem modeļiem, piemēram, GPT-4O, apstrādājot sistēmas lietotāju ziņojumu konfliktus. Tomēr ir īpaši scenāriji, kad tas var nedarboties tikpat labi kā GPT-4O vai GPT-4O1, piemēram, noteiktos jailbreak testos, kur tas ir pievilināts atklāt informāciju, kurai tā nevajadzētu [1] [7].

Drošības novērtējumi

GPT-4.5 tiek veikti stingri drošības novērtējumi, lai nodrošinātu, ka tas nerada neatļautu saturu, piemēram, naidpilnu vai nelikumīgu padomu. Šie novērtējumi arī novērtē modeļa tendenci pārspīlēt labdabīgas uzvednes, kas saistītas ar drošības tēmām. Modeļa veiktspēja šajās jomās ir būtiska, lai saglabātu tā drošību un uzticamību, apstrādājot konfliktējošas instrukcijas [1].

modeļa specifikācijas un autoritātes līmeņi

Modeļa specifikācijā ir aprakstīti dažādu veidu instrukciju autoritātes līmeņi, un platformas līmeņa instrukcijām ir visaugstākā iestāde, kam seko izstrādātāja un lietotāja instrukcijas. Šī hierarhija nodrošina, ka GPT-4.5 par prioritāti piešķir drošībai un ievēro vadlīnijas, vienlaikus ļaujot lietotājiem un izstrādātājiem pielāgot noteiktajās robežās [2] [5].

Kopumā GPT-4.5 spēja rīkoties ar konfliktējošām instrukcijām ir galvenais tā dizaina aspekts, nodrošinot, ka tā uztur drošību un integritāti, vienlaikus mijiedarbojoties ar lietotājiem.

Atsauces:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://model-spec.openai.com
[3] https://community.openai.com/t/how-to-deal-with-lazy-gpt-4/689286
[4] https://arxiv.org/html/2408.10943v1
[5] https://bgr.com/tech/chatgpt-ai-will-finally-start covering-controversial-topics/
[6] https://fortune.com/2025/02/14/sam-altman-openai-plans-gpt-5-release-timelines/
[7] https://www.reddit.com/r/singularity/comments/1izn175/openai_gpt45_system_card/
[8] https://www.reddit.com/r/openai/comments/197exmm/gpt4_has_only_been_getting_worse/