Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon Como a abordagem de aprendizado de reforço do DeepSeek R1 aprimora seus recursos de raciocínio


Como a abordagem de aprendizado de reforço do DeepSeek R1 aprimora seus recursos de raciocínio


Deepseek R1 aprimora seus recursos de raciocínio por meio de uma nova abordagem de aprendizado de reforço (RL) que diverge dos métodos tradicionais de ajuste fino supervisionado (SFT). Essa estratégia inovadora permite que o modelo desenvolva habilidades de raciocínio de forma independente e eficiente.

Framework de aprendizado de reforço

A Deepseek R1 emprega otimização relativa de política relativa do grupo (GRPO), uma estrutura de RL baseada em regras que permite que o modelo aprenda com tentativa e erro sem depender de conjuntos de dados pré-rotulados. Essa abordagem permite que o modelo explore um vasto espaço de solução, descobrindo padrões e estratégias de raciocínio exclusivos que podem não estar presentes nos dados de treinamento supervisionados [1] [2] [4]. Ao incentivar o raciocínio durante o processo de RL, o Deepseek R1 pode gerar cadeias de pensamento coerentes e se envolver em auto-verificação e reflexão, que são críticas para a solução complexa de problemas [4].

Processo de treinamento com várias etapas

O treinamento do Deepseek R1 é dividido em várias fases:

1. Fase de partida a frio: O modelo começa com uma pequena quantidade de dados supervisionados de alta qualidade coletados de seu antecessor, Deepseek R1-zero. Essa fase ajuda a mitigar questões como baixa legibilidade e mistura de idiomas observadas em modelos anteriores [1] [2].

2. RL orientado para o raciocínio: Após o início do frio, o modelo passa por um extenso treinamento de RL orientado para o raciocínio. Esta fase se concentra em aprimorar os recursos em domínios específicos, como codificação, matemática e lógica, onde soluções claras podem ser definidas usando regras de recompensa [3] [4].

3. Ajuste fino com novos dados: Após o treinamento inicial da RL, novos dados supervisionados são gerados por amostragem de rejeição com base no ponto de verificação da RL. Esses dados são usados ​​para mais ajuste fino, permitindo que o modelo refine suas habilidades de raciocínio em várias tarefas [1] [2].

resultados de desempenho

O resultado desse rigoroso processo de treinamento é um modelo que atinge níveis de desempenho comparáveis ​​aos principais modelos como o OpenAI O1-1217 nas tarefas de raciocínio. Por exemplo, o Deepseek R1 demonstrou melhorias significativas nos benchmarks, com as taxas de aprovação aumentando de 15,6% para 71% nas tarefas do AIME 2024, mostrando seus recursos aprimorados de raciocínio [1] [2].

Em resumo, a abordagem de aprendizado de reforço da DeepSeek R1 não apenas promove o raciocínio independente, mas também aprimora a eficiência da solução de problemas, minimizando a dependência de conjuntos de dados supervisionados extensos. Isso o posiciona como uma ferramenta poderosa no cenário de grandes modelos de idiomas.

Citações:
[1] https://arxiv.org/html/2501.12948v1
[2] https://myedgech.com/deepseek-r1-tr/
[3] https://www.youtube.com/watch?v=dcqqcllsibu
[4] https://arbisoft.com/blogs/deep-seek-r1-the-chinese-ai-powerhouse-ountperforming-open-ai-s-o1-at-95-sem-custo
[5] https://github.com/deepseek-ai/deepseek-r1/actions
[6] https://www.prompthub.us/blog/deepseek-r-1-model-overview-and-ow-it-ranks-against-openais-1
[7] https://arxiv.org/abs/2501.12948
[8] https://www.vellum.ai/blog/the-trening-ofdeepseek-r1-and-ways-to-use-it