Otsingutulemuste põhjal võrreldakse Claude 3.5 Sonneti kodeerimistäpsuse osas GPT-4-ga järgmiselt:
1. Kodeerimisoskus (HumanEvali võrdlusalus):
- Claude 3.5 sonett: 92,0% täpsus (0 võtet)
- GPT-4o: 90,2% täpsus (0-võte)
Otsingutulemused näitavad, et Claude 3.5 Sonnet ületab HumanEvali etalonil, mis mõõdab kodeerimisoskust, GPT-4o. Claude 3.5 Sonnet saavutas kõrgema täpsusskoori 92,0%, võrreldes GPT-4o 90,2%.
2. Agentide kodeerimise hindamine:
- Claude 3.5 sonett: lahendatud 64% probleemidest
- Claude 3 Opus: lahendatud 38% probleemidest
Anthropicu läbi viidud sisemise agentilise kodeerimise hindamise käigus suutis Claude 3.5 Sonnet lahendada 64% probleemidest, edestades oluliselt eelmist Claude 3 Opuse mudelit, mis lahendas vaid 38% probleemidest. See näitab Claude 3.5 Sonneti paremaid kodeerimisvõimalusi võrreldes eelmiste mudelitega.
Otsingutulemused ei anna otsest võrdlust Claude 3.5 Sonneti ja GPT-4 vahel agentilise kodeerimise hindamise osas. Kuid Claude 3.5 Sonneti tugev jõudlus HumanEvali etalonil ja sisemise agentilise kodeerimise hindamine viitab sellele, et see ületab tõenäoliselt GPT-4 kodeerimise täpsuse ja probleemide lahendamise võimete osas.
Üldiselt näitavad otsingutulemused, et Claude 3.5 Sonnet on kodeerimisülesannete osas väga võimekas mudel, mis ületab kodeerimise täpsuse ja probleemide lahendamise osas GPT-4o ja varasemaid Claude'i mudeleid.
Tsitaadid:[1] https://www.vellum.ai/blog/claude-3-5-sonnet-vs-gpt4o
[2] https://apidog.com/blog/claude-3-5-sonnet/
[3] https://cryptoslate.com/claude-3-5-sets-new-ai-benchmarks-beating-gpt-4o-in-coding-and-reasoning/
[4] https://www.trendlinenews.com/article/Claude-35-Sonnet-is-Leading-the-Way-in-AI-Performance-and-Versatility
[5] https://www.anthropic.com/news/claude-3-5-sonnet