GPT-4.5 jõudlus SWE-Lanceri võrdlusalusel: juhtimistugevused ja kodeerimisprobleemid

Kuidas on GPT-4.5 jõudlus SWE Manageri ülesannetes võrrelda IC SWE ülesannetega

GPT-4.5, OpenAi uusim suur keelemudel, näitab erinevate tarkvaratehnika ülesannete erinevat jõudlust, eriti SWE-Lanceri võrdlusaluses. See võrdlusalus hindab AI-mudeleid reaalainete vabakutseliste tarkvaratehnika ülesannete osas, jagatud individuaalsete kaastöötajate (IC) SWE-ülesannete ja SWE halduri ülesanneteks.

** IC SWE ülesanded hõlmavad otsest kodeerimist, silumist ja rakendamist, nõudes AI -mudeleid koodi muutmiseks ja lahenduste esitamiseks. Neid ülesandeid hinnatakse otsast lõpuni testide abil. GPT-4.5 saavutas IC SWE ülesannetes tagasihoidliku jõudluse, lahendades edukalt 20% neist ülesannetest. See näitab, et kuigi GPT-4.5 võib aidata kodeerimisülesannete täitmisel, seisab see endiselt keerukate kodeerimistööde täieliku automatiseerimisega seotud väljakutsetega, sarnaselt teiste mudelitega, mis on otsese kodeerimisülesannete täitmisel näidanud umbes 26% täpsust [1] [2].

** SWE Manageri ülesanded seevastu nõuavad AI -mudeleid tehniliste müügivihjetena, valides optimaalsed rakendamise ettepanekud ja teha otsuseid. GPT-4.5 toimis nendel ülesannetel paremini, saavutades edukuse 44%. See viitab sellele, et GPT-4.5 on juhtimisrollides rohkem osav, näiteks koodi kvaliteedi hindamine ja strateegiliste otsuste tegemine, mis vastab AI-mudelite üldisele suundumusele, mis toimivad hästi juhtimisülesannete täitmisel, saavutades sageli umbes 45% täpsuse [1] [2].

Üldiselt näitab GPT-4.5 märgatavat erinevust IC SWE ülesannete ja SWE juhi ülesannete täitmisel, tuues esile selle tugevused juhtimisrollides, kuid otseste kodeerimisülesannete piirangud. See eristamine rõhutab AI potentsiaali tarkvaratehnika toetamisel, eriti otsuste tegemisel ja strateegilistel rollidel, nõudes samas inimlikke järelevalvet keerukate kodeerimisülesannete osas.

Tsitaadid:
]
]
[3] https://openai.com/index/introducing-gpt-4-5/
]
[5] https://topolmads.com/gpt-4-5-vs-gpt-5-release/
]
[7] https://openai.com/index/swe-lancer/
]