Salīdzinot skaitļošanas izmaksas par DeepSEEK-R1 un Claude 3.5 soneta apmācību

Kā DeepSEEK-R1 apmācības aprēķina izmaksas salīdzina ar Claude 3.5 sonetu

Salīdzinot DeepSEEK-R1 un Claude 3.5 Sonnet apmācības skaitļošanas izmaksas, ir jāpārbauda vairāki faktori, ieskaitot aprēķinātās apmācības izmaksas, modeļa arhitektūru un skaitļošanas efektivitāti.

DeepSeek-R1

- Paredzētās apmācības izmaksas: Tiek lēsts, ka DeepSEEK-R1 apmācības izmaksas ir no USD 500 000 līdz USD 2 miljoniem, un daži avoti liecina, ka tas varētu būt tikpat zems kā USD 1 miljons, sākot no iepriekšējās versijas, piemēram, DeepSeek V3 [1] [4]. Šīs izmaksas ir ievērojami zemākas, salīdzinot ar citiem liela mēroga AI modeļiem.

-Modeļa arhitektūra un efektivitāte: DeepSEEK-R1 izmanto Experts maisījuma (MOE) arhitektūru, kas ir paredzēta skaitļošanas ziņā efektīvai. Tas izmanto liela mēroga pastiprināšanas mācīšanos, lai uzlabotu savas spriešanas iespējas ar minimāli marķētiem datiem, samazinot skaitļošanas slogu, kas parasti saistīts ar lieliem modeļiem [3] [6].

- Skaitļošanas efektivitāte: DeepSEEK-R1 koncentrējas uz mērķtiecīgu modeļa arhitektūru un skaitļošanas efektivitāti, kas veicina tās zemākās apmācības izmaksas. Tas to sasniedz, izmantojot optimizētus apmācības procesus un potenciāli zemākas enerģijas un aparatūras prasības [1].

Claude 3.5 sonets

- Paredzētās apmācības izmaksas: Tiek ziņots, ka Claude 3,5 soneta apmācības izmaksas ir no 20 līdz 30 miljoniem USD, kas ir ievērojami augstāka nekā DeepSEEK-R1 [5].

- Modeļa arhitektūra un efektivitāte: Claude 3.5 sonets ir paredzēts augstas veiktspējas kodēšanas uzdevumos un piedāvā ātruma un efektivitātes uzlabojumus salīdzinājumā ar tā priekšgājējiem. Tomēr tās arhitektūra īpaši nekoncentrējas uz skaitļošanas izmaksu samazināšanu apmācības laikā [8].

- Darbības izmaksas: Lai arī apmācības izmaksas ir augstas, Claude 3.5 Sonnet piedāvā konkurētspējīgas darbības cenas USD 3 par miljonu ievades marķieru un 15 USD par miljonu izlaides marķieru [8]. Tomēr šīs darbības izmaksas joprojām ir augstākas nekā DeepSeek-R1 cenu struktūra, kas gūst labumu no kešatmiņas mehānismiem [3] [6].

Rezumējot, DeepSEEK-R1 ir ievērojami zemākas apmācības izmaksas, salīdzinot ar Claude 3,5 sonetu, galvenokārt tā efektīvās arhitektūras un apmācības metodoloģijas dēļ. Tomēr Claude 3.5 Sonnet piedāvā labāku veiktspēju noteiktos kodēšanas uzdevumos un ir pieejams caur dažādām API, padarot to par vērtīgu izvēli konkrētām lietojumprogrammām, neskatoties uz augstākām apmācības un darbības izmaksām.

Atsauces:
[1] https://www.byteplus.com/en/topic/384199
[2] https://www.reddit.com/r/openai/comments/1h82pl3/i_spent_8_hours_testing_o1_pro_200_vs_claude/
.
[4] https://epoch.ai/gradient-vietdates/what-went-into-training-depseek-r1
.
[6] https://docsbot.ai/models/compare/deepseek-r1/claude-3-5-sonnet
[7] https://www.linkedin.com/posts/jngiam_the-real-training-costs-for-depseek-is-much-aktivity-7289668391965982720-wfpgg
[8] https://www.anthropic.com/news/claude-3-5-sonnet
[9] https://elephas.app/blog/deepseek-vs-claude