GPT-4.5, Openain viimeisin suuri kielimalli, osoittaa vaihtelevan suorituskyvyn eri ohjelmistotekniikan tehtävissä, etenkin Swe-Lancer-vertailuarvoissa. Tämä vertailuarvo arvioi AI-malleja reaalimaailman freelance-ohjelmistotekniikan tehtävissä jaettuna yksittäisiin avustajan (IC) SWE-tehtäviin ja SWE Manager -tehtäviin.
** IC SWE -tehtäviin sisältyy suora koodaus, virheenkorjaus ja toteutus, joka vaatii AI -malleja koodin muokkaamiseksi ja ratkaisujen lähettämiseksi. Nämä tehtävät arvioidaan päästä päähän -testeillä. GPT-4,5 saavutti vaatimattoman suorituskyvyn IC SWE -tehtävissä, ratkaisemalla onnistuneesti 20% näistä tehtävistä. Tämä osoittaa, että vaikka GPT-4,5 voi auttaa koodaustehtävissä, sillä on edelleen haasteita täysin automatisoinnissa monimutkaisten koodaustyöhön, samanlaisia kuin muut mallit, jotka ovat osoittaneet noin 26% tarkkuuden suorissa koodaustehtävissä [1] [2].
** SWE Manager -tehtävät sitä vastoin vaativat AI -malleja toimimaan teknisinä johdoina, valitsemalla optimaaliset toteutusehdotukset ja päätöksenteon tekeminen. GPT-4,5 suoritti paremmin näissä tehtävissä saavuttaen 44%: n onnistumisaste. Tämä viittaa siihen, että GPT-4,5 on taitavampaa johtamisrooleissa, kuten koodin laadun arviointi ja strategisten päätösten tekeminen, jotka vastaavat AI-mallien yleistä suuntausta, joka toimii hyvin johtamistehtävissä, saavuttaen usein noin 45%: n tarkkuuden [1] [2].
Kaiken kaikkiaan GPT-4,5 osoittaa huomattavan eron suorituskyvyssä IC SWE -tehtävien ja SWE Manager -tehtävien välillä, korostaen sen vahvuuksia johtamisrooleissa, mutta rajoitukset suorissa koodaustehtävissä. Tämä ero korostaa AI: n potentiaalia ohjelmistotekniikan tukemisessa, etenkin päätöksenteossa ja strategisissa rooleissa, samalla kun se vaatii edelleen ihmisen valvontaa monimutkaisten koodaustehtävien suhteen.
Viittaukset:
.
[2] https://adasci.org/benchmarking-ai-on-sofware-tasks
[3] https://openai.com/index/introducing-gpt-4-5/
.
[5] https://toposads.com/gpt-4-5-vs-gpt-5-release/
.
[7] https://openai.com/index/swe-lancer/
.