„Claude 3.5 Sonnet“ ir „GPT-4“: kodavimo tikslumo palyginimas

„Claude 3.5 Sonnet“ ir „GPT-4“, ypač jų variante GPT-4o, yra du pažangios AI kalbos modeliai, turintys pastebimų kodavimo tikslumo ir susijusių skaičiavimo galimybių skirtumų. Šių modelių palyginimas pabrėžia jų stipriąsias ir silpnąsias puses atliekant programavimo užduotis, derinimą, samprotavimus ir kontekstinį supratimą.

„Claude 3.5 Sonnet“ pademonstravo įspūdingą našumą dėl programavimo etalonų, tokių kaip „Humaneval“, kur jis pasiekia apie 92,0% tikslumą atliekant „Python“ funkcijų testus. Šis tikslumas šiek tiek viršija GPT-4O 90,2% tame pačiame etalone. Nedidelis tikslumo patobulinimas empiriškai paverčia mažiau varginančių derinimo sesijų ir patikimesnio kodavimo užduočių vykdymo. „Claude 3.5 Sonnet“ taip pat parodo tvirtas nuolatinio derinimo galimybes, dirbant per kelis perrašymo ir bandymo ciklus, kad būtų galima sukurti funkcinius kodo sprendimus, o tai yra reikšmingas privalumas sudėtingoje klaidų skiriamąja geba ir programinės įrangos kūrimo komandų autonominio kodo korekcija.

Atliekant realaus pasaulio kodavimo scenarijus, patikrintus „SWE-Bench“ patikrintame, „Claude 3.5 Sonnet“ išsprendžia maždaug 49% užduočių, o tai yra keturių taškų padidėjimas, palyginti su ankstesnėmis „Openai“ versijomis, ir rodo reikšmingą progresą praktiniame kodavimo taikyme. Šio modelio pranašumai apima komplekso tvarkymą, kelių failų kodų bazes, palengvintas dideliu 200 k rakto konteksto langu, kuris leidžia išlaikyti supratimą apie išsamius kodo dokumentus. Jame taip pat yra eksperimentinis „kompiuterio naudojimo“ režimas, skirtas naršyti sąsajos elementus ir dokumentaciją, padidinant jo naudingumą integruotoje plėtros aplinkoje (IDE).

Palygindamas samprotavimus ir konteksto supratimą, „Claude 3.5 Sonnet“ išsiskiria tam tikromis niuansuotomis užduotimis, tokiomis kaip analogija ir santykių klausimai, tačiau kovoja su skaitmeniniais ir su data susijusiais klausimais. Sudėtinguose absolventų lygio pagrindimų etalonuose, tokiuose kaip „GPQA“, „Claude 3.5 Sonnet“ praneša apie 59,4% tikslumą, o „GPT-4O“ 53,6% išnaikinimas, rodantis, kad kodo supratimo ir generavimo ir generavimo sudėtingų samprotavimų užduočių tvarkymas yra aukštesnis.

Ir atvirkščiai, GPT-4o parodo stipriąsias greičio, latencijos ir kai kurių specifinių matematinio problemų sprendimo aspektų stipriąsias puses. „GPT-4O“ yra maždaug 24% greitesnis latentinis, palyginti su „Claude 3.5 Sonnet“, suteikdamas pranašumą programoms, kurioms reikia greito atsakymo laiko. Atliekant matematikos užduotis, „GPT-4o“ pralenkia „Claude 3.5“ sonetą su 76,6% tikslumu, palyginti su 71,1%, esant nuliniam šūvio grandinei, matematikos problemų sprendimo etalonams. Be to, „GPT-4o“ linkęs pateikti tikslesnius atsakymus tam tikruose faktiniuose ir skaitmeniniuose kontekstuose, todėl jis yra patikimesnis scenarijuose, kai duomenų ir skaičiavimo tikslumas yra labai svarbus.

Veiksmingų duomenų gavybos ir klasifikavimo užduočių įvertinimuose, GPT-4o paprastai pasiekia didesnį tikslumą ir mažiau klaidingų teigiamų rezultatų, palyginti su Claude 3.5 sonnet. Tačiau „Claude 3.5 Sonnet“ demonstruoja tam tikrus GPT-4o patobulinimus daugelyje konkrečių padalijimų. Pavyzdžiui, duomenų gavybos vertinimo ataskaitoje, o GPT-4o išlaikė bendrą didesnį tikslumą (69%, palyginti su 44% „Claude 3.5 Sonnet“ tam tikrose srityse), pastarasis parodė didesnį patobulinimų skaičių kai kuriuose duomenų taškuose, rodančiuose, kad tolesnis patobulinimas yra patobulintas, naudojant patobulintus raginimo metodus ir modeliavimo derinimą.

Kodo aiškumo ir skaitomumo aspektu „Claude 3.5 Sonnet“ dažnai sukuria aiškesnį, suprantamesnį kodo išvestį, o tai yra vertinga bendradarbiavimo plėtros aplinkoje, kur svarbus kodo palaikymas. Tai prisideda prie efektyvaus derinimo ciklo, nes pradiniams pradiniams išėjimams paprastai reikia mažiau sudėtingų pataisų.

Naujausi vidiniai agentiniai vertinimai rodo, kad „Claude 3.5 Sonet“ išsprendė 64% autonominių kodavimo problemų, žymiai geriau nei jo pirmtakas „Claude 3 Opus“ - 38%, parodant patobulintus nepriklausomus kodų generavimo ir klaidų fiksavimo galimybes. Tuo tarpu „GPT-4o“ yra pripažįstamas už bendrą aukštesnių rezultatų viršutinę ribą ir platesnius patobulinimus daugelyje frontų, tačiau su šiek tiek didesniu kintamumu, atsižvelgiant į užduoties tipą.

Naujausi modelių palyginimai taip pat pabrėžia „Claude 3.7 Sonnet“ - iteraciją, viršijančią 3,5, ir pasiekia dar geresnį tikslumą (iki 90% atliekant sudėtingas duomenų bazių užduotis), tačiau „Claude 3.5 Sonnet“ išlaiko greičio ir racionalizuotų išėjimų pranašumus ir racionalizuotos išvestis greito iteracijos vartojimo atvejų, tokių kaip priekinės dalies kūrimas.

Apibendrinant galima pasakyti, kad „Claude 3.5 Sonnet“ siūlo puikų tikslumą pagrindiniuose kodavimo etalonuose, tokiuose kaip humanevalai ir tobulėjant nuolatiniam autonominiam derinimui, sudėtingam kelių failų kodų bazės tvarkymui ir kodų generavimo aiškumui. Tai ypač gerai atlieka absolventų pagrindimo užduotis. Kita vertus, „GPT-4o“ yra greitesnis, geresnis su matematika susijusiomis problemomis ir suteikia didesnį tikslumą, turint mažiau klaidingų teigiamų klasifikavimo ir ištraukimo užduočių. Kai kuriuose vertinimuose GPT-4 taip pat pasiekia didžiausią tikslumą absoliučiai, išlaikant jo, kaip aukščiausios pakopos kodavimo tikslumo modelio, statusą, kai greitis ir tikslumas yra svarbiausia.

Nors „Claude 3.5“ sonetas pažengia į savarankiškų problemų sprendimo, kodavimo sklandumo ir kontekstinio supratimo galimybes, GPT-4 kraštas greičiu, matematiniu pagrindimu ir tikslumo pozicijomis yra užduočių lyderis, reikalaujantis subalansuoto greičio ir tikslumo. Pasirinkimas tarp dviejų priklauso nuo konkretaus kodavimo konteksto „Claude 3.5 Sonet“, skirto nuolatiniam, niuansuotam kodo kūrimui ir GPT-4O užduotims, reikalaujančioms didesnio greičio ir skaitmeninio tikslumo.

Tačiau abu modeliai rodo trūkumus, susijusius su tobulo tikslumo ženklais duomenų gavyboje ir daugiapakopių sudėtingų kodavimo užduočių, todėl reikia apgalvoto pritaikymo projektavimo aplink greitą inžineriją ir iteracinį bandymą, kad būtų efektyviai panaudoti savo stipriąsias puses. Jie taip pat reikalauja nuolatinio modelio ir paskatinti patobulinimus, kad būtų sumažintas retkarčiais regresijos ir visiškai panaudotumėte savo patobulinimus praktiniame kodavimo kontekste.

Šis išsamus palyginimas pabrėžia niuansuotus kompromisus tarp „Claude 3.5 Sonnet“ ir „GPT-4o“ kodavimo tikslumo, kai „Claude 3.5 Sonnet“ puikiai išskiria samprotavimus ir derinimo gylį, o GPT-4o veda reaguodami į greitį ir matematinį tikslumą. Kiekvienas iš jų suteikia unikalių pranašumų pažengus AI-AIDED programavimo produktyvumui.

Nuorodos:
- Antropiniai vidiniai vertinimai ir humanevalų „Python“ etalonai praneša apie „Claude 3.5 Sonet“, esant 92,0% kodavimo tikslumui, palyginti su GPT-4O, esant 90,2%, atliekant „Python“ užduotis.
- Lyginamieji tyrimai rodo, kad „GPT-4o“ greitesnis vėlavimas maždaug 24%, geresnis matematikos problemos tikslumas ir didesnis tikslumas tam tikroms duomenų gavimo užduotims.
-Derinimo analizė, kodo aiškumas, konteksto išlaikymas ir autonominis problemų sprendimas pabrėžia Claude'o 3.5 „Sonnet“ stiprią daugiapakopį derinimą ir samprotavimus.
- Duomenų gavyba ir klasifikavimo etalonai, kai GPT-4o paprastai pralenkia „Claude 3.5 Sonnet“, tačiau su pažymėtais konkrečiais soneto patobulinimais.
- Vartotojo lygio bandymai ir greičio palyginimai rodo „Claude 3.5 Sonnet“ greitesnį išvesties generavimą iteracinėse užduotyse, palyginti su šiek tiek didesniu tikslumu sudėtingose užklausose, kurias pateikė vėlesnės Claude versijos.

Ši išsami informacija suteikia išsamų supratimą, kaip „Claude 3.5 Sonet“ yra lyginamas su GPT-4 kodavimo tikslumu įvairiuose programavimo, samprotavimo ir modelio elgesio aspektuose.

Kaip „Claude 3.5 Sonnet“ palyginamas su GPT-4 kodavimo tikslumo atžvilgiu