比较培训的计算成本DeepSeek-R1和Claude 3.5十四行诗

培训的计算成本如何与Claude 3.5十四行诗相比

比较训练DeepSeek-R1和Claude 3.5十四行诗的计算成本涉及检查几个因素，包括估计的培训成本，模型架构和计算效率。

DeepSeek-R1

- 估计的培训成本：DeepSeek-R1的培训成本估计在50万至200万美元之间，一些消息来源表明，从诸如DeepSeek V3 [1] [4]之类的先前版本开始时，它可能低至100万美元。与其他大规模AI模型相比，此成本明显降低。

- 模型架构和效率：DeepSeek-R1采用了专家(MOE)体系结构的混合物，旨在计算上有效。它使用大规模的增强学习来通过最小的标记数据来增强其推理能力，从而减少了通常与大型模型相关的计算负担[3] [6]。

- 计算效率：DeepSeek-R1专注于目标模型架构和计算效率，这有助于其较低的培训成本。它通过优化的培训过程以及可能降低能源和硬件要求[1]来实现这一目标。

Claude 3.5十四行诗

- 估计的培训成本：据报道，Claude 3.5十四行诗的培训成本在20至3000万美元之间，大大高于DeepSeek-R1 [5]。

- 模型体系结构和效率：Claude 3.5十四行诗是为高性能在编码任务方面而设计的，并且与其前任相比，速度和效率提高了。但是，它的体系结构并未专门针对降低培训期间的计算成本[8]。

- 运营成本：虽然培训成本很高，但Claude 3.5十四行诗以每百万投入令牌3美元和每百万美元的产出代币15美元提供竞争性运营定价[8]。但是，这种运营成本仍然高于DeepSeek-R1的定价结构，该结构受益于缓存机制[3] [6]。

总而言之，与克劳德3.5十四行诗相比，DeepSeek-R1的培训成本明显降低，这主要是由于其有效的建筑和培训方法。但是，Claude 3.5 SONNET在某些编码任务中提供了出色的性能，并且可以通过各种API获得，尽管培训和运营成本更高，但它是特定应用程序的宝贵选择。

引用：
[1] https://www.byteplus.com/en/topic/384199
[2] https://www.reddit.com/r/openai/comments/1h82pl3/i_spent_8_hours_testing_o1_pro_200_vs_claude/
[3] https://blog.getbind.co/2025/01/23/deepseek-r1-vs-gpt-o1-o1-vs-claude-3-3-5-sonnet-which---------sonnet-which-which-is-best-best-for-coding/
[4] https://epoch.ai/gradient-updates/what-went-went-into-training-deepseek-r1
[5] https://www.linkedin.com/posts/debarghyadas_claude-sonnet-35-took-a-few-10ms-train-train-actrain-activity-7290427104863694849-6EM-
[6] https://docsbot.ai/models/compare/deepseek-r1/claude-3-5-sonnet
[7] https://www.linkedin.com/posts/jngiam_the-real-training-costs-for-deepseek-is-is-much-activity-728966683965965982720-wfpg
[8] https://www.anththropic.com/news/claude-3-5-sonnet
[9] https://elephas.app/blog/deepseek-vs-claude