GPT-4.5 este conceput pentru a gestiona instrucțiunile conflictuale printr-o ierarhie de instrucțiuni, care prioritizează mesajele sistemului prin mesajele utilizatorilor pentru a atenua riscurile precum injecții prompte și alte atacuri care depășesc instrucțiunile de siguranță [1]. Cu toate acestea, dacă GPT-4.5 se poate adapta la noile tipuri de instrucțiuni conflictuale la care nu a fost instruit este o întrebare complexă.
Instruire și evaluare
GPT-4.5 a fost instruit folosind noi tehnici de supraveghere combinate cu metode tradiționale precum reglarea fină supravegheată (SFT) și învățarea de întărire din feedback uman (RLHF) [1]. Aceste metode urmăresc îmbunătățirea alinierii modelului cu intenția utilizatorului și capacitatea acestuia de a urma instrucțiunile mai exact. Modelul a fost evaluat pe diverse scenarii în care sistemul și mesajele utilizatorilor intră în conflict, arătând îmbunătățiri față de modelele anterioare precum GPT-4O [1].
Adaptabilitatea la noile instrucțiuni conflictuale
În timp ce GPT-4.5 demonstrează o performanță mai bună în gestionarea tipurilor de instrucțiuni conflictuale cunoscute, capacitatea sa de a se adapta la tipuri de conflicte complet noi depinde de mai mulți factori:
1.. Capacități de generalizare: Pregătirea GPT-4.5 include scalarea învățării nesupravegheate, ceea ce îmbunătățește capacitatea sa de a generaliza și de a înțelege contexte mai largi [1]. Acest lucru ar putea ajuta să recunoască tiparele în noile instrucțiuni conflictuale.
2. Ierarhia instrucțiunilor: Ierarhia de instrucțiuni a modelului este concepută pentru a acorda prioritate mesajelor de sistem, ceea ce ajută la menținerea siguranței și respectării regulilor predefinite. Cu toate acestea, dacă noile instrucțiuni conflictuale se încadrează în sfera de aplicare a acestei ierarhii, modelul s-ar putea lupta să se adapteze fără o pregătire suplimentară sau reglarea fină.
3. Inginerie promptă și schele: Utilizatorii pot folosi tehnici avansate de solicitare sau schele pentru a ghida modelul spre înțelegerea și respectarea noilor instrucțiuni. Această abordare poate ajuta la generarea comportamentelor dincolo de ceea ce modelul a fost instruit în mod explicit pentru [1].
4. Limitări și evaluări de siguranță: În ciuda îmbunătățirilor, GPT-4.5 se confruntă încă cu provocări în gestionarea scenariilor complexe sau noi. Evaluările de siguranță au arătat că, în timp ce modelul îndeplinește bine sarcinile cunoscute, există întotdeauna riscul ca acesta să nu urmeze instrucțiunile în contexte neprevăzute [1].
Concluzie
În timp ce GPT-4.5 este mai capabil decât predecesorii săi în gestionarea instrucțiunilor conflictuale, adaptabilitatea sa la tipuri de conflicte complet noi este limitată de datele sale de instruire și de proiectarea sa. Poate necesita strategii suplimentare de reglare fină sau de solicitare creativă pentru a gestiona în mod eficient scenarii noi. Cercetările în curs de desfășurare și interacțiunile utilizatorilor cu GPT-4.5 vor oferi mai multe informații despre capacitățile și limitările sale în acest domeniu.
Citări:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://assets.antropic.com/m/983c85a201a962f/original/alignment-paking-in-limargage-models-full-paper.pdf
[3] https://latenode.com/blog/chatgpt-4-5-review
[4] https://arxiv.org/pdf/2203.02155.pdf
[5] https://www.theverge.com/news/620067/openai-gpt-4-5-nearly-here
[6] https://community.openai.com/t/gpt-4o-not-following-simple-and-clear-instructions/768674
[7] https://www.reddit.com/r/singularity/comments/1bgpmnv/lets_say_gpt45_Releases_next_week_what_are_your/
[8] https://www.reddit.com/r/openai/comments/18monbs/gpt_4_has_been_toned_down_significant_and/