Comparação dos dados de treinamento Deepseek-R1 e Llama 3.1

Quais são as principais diferenças nos dados de treinamento usados para Deepseek-R1 e Llama 3.1

Os dados de treinamento para Deepseek-R1 e Llama 3.1 exibem várias diferenças importantes, refletindo abordagens distintas para o desenvolvimento de modelos.

Dados de treinamento Deepseek-R1

O Deepseek-R1 é treinado usando um processo de várias etapas que combina o aprendizado de reforço (RL) com o ajuste fino supervisionado (SFT). O modelo começa com uma fase de "início frio", onde é ajustado em um pequeno conjunto de exemplos cuidadosamente criados para melhorar a clareza e a legibilidade. Isto é seguido pelo RL puro para aprimorar as habilidades de raciocínio, semelhante ao R1-Zero. Perto da convergência do RL, o modelo usa amostragem de rejeição para criar dados sintéticos, selecionando os melhores exemplos das execuções anteriores do RL. Esses dados sintéticos são então mesclados com dados supervisionados da Deepseek-V3-Base em domínios como escrita, controle de qualidade factual e autoconhor. O estágio final envolve outra rodada de RL em diversos avisos e cenários para generalizar ainda mais as capacidades do modelo [1] [4].

llama 3.1 dados de treinamento

O LLAMA 3.1, por outro lado, é treinado em um corpus enorme de aproximadamente 15 trilhões de tokens de fontes publicamente disponíveis, com uma data de corte de conhecimento de dezembro de 2023 [8]. O conjunto de dados de treinamento inclui uma mistura equilibrada de domínios gerais, dados matemáticos e de raciocínio, textos multilíngues e código de várias linguagens de programação para aprimorar os recursos de geração e compreensão de código [5]. O modelo passa por pré-treinamento inicial usando um objetivo de previsão do próximo toque, seguido de pré-treinamento de longo contexto para lidar com documentos longos e tarefas complexas de raciocínio. O mix de dados é cuidadosamente ajustado para melhorar o desempenho em tarefas específicas, como aumentar os dados não ingleses para recursos multilíngues e dados matemáticos de amostragem para melhor raciocínio [2] [5].

Diferenças -chave

1. Abordagem de treinamento: Deepseek-R1 depende fortemente da aprendizagem de reforço e da geração de dados sintéticos, enquanto o LLAMA 3.1 usa uma abordagem de aprendizado supervisionada mais tradicional com um conjunto maciço de pré-treinamento.

2. Fontes de dados: Deepseek-R1 usa uma combinação de dados iniciais de partida a frio e dados sintéticos gerados durante o processo RL. Por outro lado, o LLAMA 3.1 é treinado em um grande corpus de dados publicamente disponíveis.

3. Volume e qualidade de dados: o LLAMA 3.1 é treinado em um conjunto de dados muito maior (~ 15 trilhões de tokens) em comparação com o conjunto de dados inicial relativamente pequeno usado para Deepseek-R1. No entanto, o uso de dados sintéticos pelo DeepSeek-R1 permite que ele atinja alto desempenho nas tarefas de raciocínio, apesar do conjunto inicial de conjunto de dados menor.

4. Áreas de foco: Ambos os modelos se concentram em melhorar as capacidades de raciocínio e conhecimento, mas o DeepSeek-R1 coloca uma forte ênfase no raciocínio através da RL, enquanto o LLAMA 3.1 também se concentra em recursos multilíngues e de codificação.

No geral, os dados de treinamento para o Deepseek-R1 e o LLAMA 3.1 refletem estratégias diferentes no desenvolvimento de modelos, com o DeepSeek-R1 alavancando RL e dados sintéticos para obter fortes recursos de raciocínio e o LLAMA 3.1 confiando em uma abordagem de aprendizado supervisionado em larga escala para cobrir uma ampla gama de tarefas.

Citações:
[1] https://www.vellum.ai/blog/the-trening-ofdeeek-r1-and-ways-to-use-it
[2] https://www.linkedin.com/pulse/dissecting-lama-31-deep-dive-benedict-shith-agi6f
[3] https://docsbot.ai/models/compare/deepseek-r1/llama-3-1-8b-instruct
[4] https://huggingface.co/blog/open-r1
[5] https://kili-technology.com/large-language-models-llms/llama-3-1-guide-what-to-know-about-meta-snew-405b-model-and-its-Data
[6] https://docsbot.ai/models/compare/deepseek-r1/llama-3-1-405b-instruct
[7] https://www.datacamp.com/tutorial/fine-tuning-deepseek-r1-reasoning-model
[8] https://huggingface.co/meta-llama/llama-3.1-8b-instruct
[9] https://www.prompthub.us/blog/deepseek-r-1-model-overview-and-how-it-ranks-against-openais-o1

Quais são as principais diferenças nos dados de treinamento usados ​​para Deepseek-R1 e Llama 3.1

Dados de treinamento Deepseek-R1

llama 3.1 dados de treinamento

Diferenças -chave

Quais são as principais diferenças nos dados de treinamento usados para Deepseek-R1 e Llama 3.1