GPT-4.5-suoritus

Kuinka GPT-4.5: n suorituskyky SWE Manager -tehtävissä verrataan IC SWE -tehtäviin

GPT-4.5, Openain viimeisin suuri kielimalli, osoittaa vaihtelevan suorituskyvyn eri ohjelmistotekniikan tehtävissä, etenkin Swe-Lancer-vertailuarvoissa. Tämä vertailuarvo arvioi AI-malleja reaalimaailman freelance-ohjelmistotekniikan tehtävissä jaettuna yksittäisiin avustajan (IC) SWE-tehtäviin ja SWE Manager -tehtäviin.

** IC SWE -tehtäviin sisältyy suora koodaus, virheenkorjaus ja toteutus, joka vaatii AI -malleja koodin muokkaamiseksi ja ratkaisujen lähettämiseksi. Nämä tehtävät arvioidaan päästä päähän -testeillä. GPT-4,5 saavutti vaatimattoman suorituskyvyn IC SWE -tehtävissä, ratkaisemalla onnistuneesti 20% näistä tehtävistä. Tämä osoittaa, että vaikka GPT-4,5 voi auttaa koodaustehtävissä, sillä on edelleen haasteita täysin automatisoinnissa monimutkaisten koodaustyöhön, samanlaisia kuin muut mallit, jotka ovat osoittaneet noin 26% tarkkuuden suorissa koodaustehtävissä [1] [2].

** SWE Manager -tehtävät sitä vastoin vaativat AI -malleja toimimaan teknisinä johdoina, valitsemalla optimaaliset toteutusehdotukset ja päätöksenteon tekeminen. GPT-4,5 suoritti paremmin näissä tehtävissä saavuttaen 44%: n onnistumisaste. Tämä viittaa siihen, että GPT-4,5 on taitavampaa johtamisrooleissa, kuten koodin laadun arviointi ja strategisten päätösten tekeminen, jotka vastaavat AI-mallien yleistä suuntausta, joka toimii hyvin johtamistehtävissä, saavuttaen usein noin 45%: n tarkkuuden [1] [2].

Kaiken kaikkiaan GPT-4,5 osoittaa huomattavan eron suorituskyvyssä IC SWE -tehtävien ja SWE Manager -tehtävien välillä, korostaen sen vahvuuksia johtamisrooleissa, mutta rajoitukset suorissa koodaustehtävissä. Tämä ero korostaa AI: n potentiaalia ohjelmistotekniikan tukemisessa, etenkin päätöksenteossa ja strategisissa rooleissa, samalla kun se vaatii edelleen ihmisen valvontaa monimutkaisten koodaustehtävien suhteen.

Viittaukset:
.
[2] https://adasci.org/benchmarking-ai-on-sofware-tasks
[3] https://openai.com/index/introducing-gpt-4-5/
.
[5] https://toposads.com/gpt-4-5-vs-gpt-5-release/
.
[7] https://openai.com/index/swe-lancer/
.