Sammenligning af beregningsomkostninger ved træning Deepseek-R1 og Claude 3.5 Sonnet

Hvordan sammenligner beregningsomkostningerne ved at træne DeepSeek-R1 med Claude 3.5 Sonnet

Sammenligning af beregningsomkostningerne ved træning af DeepSeek-R1 og Claude 3.5 Sonnet involverer at undersøge flere faktorer, herunder de estimerede træningsomkostninger, modelarkitektur og beregningseffektivitet.

DeepSeek-R1

- Estimerede uddannelsesomkostninger: Uddannelsesomkostningerne for DeepSeek-R1 anslås at være mellem $ 500.000 og $ 2 millioner, med nogle kilder, der antyder, at det kunne være så lave som $ 1 million, når de starter fra en tidligere version som Deepseek V3 [1] [4]. Disse omkostninger er markant lavere sammenlignet med andre store AI-modeller.

-Modelarkitektur og effektivitet: Deepseek-R1 anvender en blanding af eksperter (MOE) arkitektur, som er designet til at være beregningseffektiv. Den bruger storstilet forstærkningslæring for at forbedre sine ræsonnementsfunktioner med minimale mærkede data, hvilket reducerer beregningsbyrden, der typisk er forbundet med store modeller [3] [6].

- Beregningseffektivitet: Deepseek-R1 fokuserer på målrettet modelarkitektur og beregningseffektivitet, hvilket bidrager til dens lavere træningsomkostninger. Det opnår dette gennem optimerede træningsprocesser og potentielt lavere energi og hardwarebehov [1].

Claude 3.5 Sonnet

- Estimerede træningsomkostninger: Uddannelsesomkostningerne for Claude 3.5 Sonnet rapporteres at være i intervallet $ 20 til $ 30 millioner, markant højere end DeepSeek-R1 [5].

- Modelarkitektur og effektivitet: Claude 3.5 Sonnet er designet til høj ydeevne i kodningsopgaver og giver forbedringer i hastighed og effektivitet sammenlignet med dens forgængere. Imidlertid fokuserer dens arkitektur ikke specifikt på at reducere beregningsomkostninger under træning [8].

- Driftsomkostninger: Mens træningsomkostningerne er høje, tilbyder Claude 3.5 Sonnet konkurrencedygtige operationelle priser til $ 3 pr. Million input -tokens og $ 15 pr. Million output -tokens [8]. Imidlertid er disse operationelle omkostninger stadig højere end DeepSeek-R1's prisstruktur, der drager fordel af cache-mekanismer [3] [6].

Sammenfattende har DeepSeek-R1 en markant lavere træningsomkostning sammenlignet med Claude 3.5 Sonnet, primært på grund af dens effektive arkitektur- og træningsmetoder. Claude 3.5 Sonnet tilbyder imidlertid overlegen ydelse i visse kodningsopgaver og er tilgængelig via forskellige API'er, hvilket gør det til et værdifuldt valg til specifikke applikationer på trods af dets højere trænings- og driftsomkostninger.

Citater:
[1] https://www.byteplus.com/en/topic/384199
[2] https://www.reddit.com/r/openai/comments/1h82pl3/i_spent_8_hours_testing_o1_pro_200_vs_claude/
)
[4] https://epoch.ai/gradient-updates/what-went-into-training-deepseek-r1
)
[6] https://docsbot.ai/models/compare/deepseek-r1/claude-3-5-sonnet
[7] https://www.linkedin.com/posts/jngiam_the-real-training-costs-for-deepseek-is-much-activity-7289668391965982720-wfpg
[8] https://www.anthropic.com/news/claude-3-5-sonnet
[9] https://elephas.app/blog/deepseek-vs-laude