Prestandan för GPT-4,5 på tyst kunskap och felsökningsfrågor, jämfört med GPT-4, återspeglar framsteg i hantering av komplexa och nyanserade frågor. Även om specifika mätvärden för tyst kunskap och felsökning inte är detaljerade i tillgänglig information, kan flera viktiga förbättringar i GPT-4.5 markeras:
1. Instruktionshierarki och säkerhet: GPT-4.5 har utbildats för att följa en instruktionshierarki, vilket hjälper till att mildra risken för snabba injektioner och andra attacker. Detta innebär att det är bättre att följa systeminstruktioner om motstridiga användarmeddelanden, förbättra dess förmåga att hantera komplexa scenarier som kan kräva felsökning [1]. Däremot har GPT-4 inte denna specifika förbättring som nämns i litteraturen.
2. Tvetydiga frågor: GPT-4,5 visar något lägre noggrannhet på tvetydiga frågor jämfört med GPT-4O (en version av GPT-4), med en noggrannhet på 0,95 för GPT-4O kontra 0,95 för GPT-4 och 0,95 för GPT-4,5. GPT-4,5: s prestanda på otvetydiga frågor liknar emellertid GPT-4O, vilket indikerar att båda modellerna hanterar tydliga frågor effektivt [1].
3. Tyst kunskap och felsökning: Även om specifika mätvärden för tyst kunskap och felsökning inte tillhandahålls, tyder GPT-4,5: s förbättrade förmåga att hantera motstridiga meddelanden och dess förbättrade instruktionshierarki att det kan fungera bättre i scenarier som kräver nyanserad förståelse och felsökning. GPT-4 är å andra sidan känd för sin förbättrade språkförståelse och förmåga att ge mer exakta svar på komplexa frågor [2].
4. Multimodala kapacitet: GPT-4, som är basen för GPT-4,5, erbjuder betydande förbättringar jämfört med GPT-3.5 i multimodala kapacitet och hantering av komplexa frågor. GPT-4 kan bearbeta och svara på ett bredare utbud av datainmatningar, vilket gör det mer mångsidigt för uppgifter som kan involvera felsökning eller tyst kunskap [2] [6].
Sammanfattningsvis, medan GPT-4,5 bygger på styrkorna i GPT-4, särskilt i hantering av komplexa instruktioner och säkerhetsprotokoll, är dess specifika prestanda på tyst kunskap och felsökningsfrågor inte omfattande. Emellertid tyder dess förbättrade instruktionshierarki och förbättrad hantering av motstridiga meddelanden att det kan vara mer effektivt i nyanserade felsökningsscenarier.
Citeringar:
[1] https://assets.ctfassets.net/kftzwdyauwt9/7EaDv6OaWHhXLAehUYu7Db/64e9f7916d3581ba4b5d0f0a6c5098d1/GPT-4-5_System_Card_2272025.pdf
[2] https://datasciencedojo.com/blog/gpt-3-5-vs-gpt-4-debate/
[3] https://www.opastpublishers.com/open-access-articles/evaluating-errors-and-improving-performance-of-chatgpt.pdf
[4] https://pmc.ncbi.nlm.nih.gov/articles/pmc11197181/
[5] https://community.openai.com/t/gpt-performance-is-not-follow-ton-instructions and-tasks/613298
]
[7] https://www.marketingaiinstitute.com/blog/the-ai-show-episode-137
]