A Deepseek emprega várias estratégias para impedir que a queda de token durante o treinamento, particularmente em sua arquitetura da mistura de especialistas (MOE). Aqui estão as principais medidas:
1. Estratégia de gotas de token: A Deepseek utiliza uma abordagem de queda em token, com base em probabilidades de roteamento, semelhante aos modelos MOE convencionais. Isso significa que os tokens são retirados de acordo com suas pontuações, garantindo que apenas os tokens menos importantes sejam descartados quando a contagem de token exceder uma certa capacidade. A capacidade é calculada de maneira diferente, dependendo se o foco está na dimensão especialista ou do dispositivo, o que ajuda a gerenciar como os tokens são processados por diferentes especialistas ou dispositivos de maneira eficaz [1].
2. Dropping de token no nível do dispositivo: a estratégia opera principalmente no nível do dispositivo, onde todas as pontuações de especialistas são classificadas e os tokens com as mais baixas probabilidades são descartadas. Isso garante que cada dispositivo possa gerenciar sua carga sem sobrecarregar nenhum especialista, mantendo a eficiência geral do desempenho [1].
3. Retenção de token garantida: A Deepseek implementou uma estratégia específica para garantir que aproximadamente 10% dos tokens das sequências de treinamento nunca sejam descartados. Isso é crucial para manter a integridade dos dados de treinamento e garantir que informações importantes sejam preservadas ao longo do processo de treinamento [2] [6].
4. Balanceamento de carga: Em sua versão mais recente, Deepseek-V3, é empregada uma estratégia de balanceamento de carga eficaz, o que elimina a necessidade de cair o token durante o treinamento. Ao ajustar dinamicamente cargas especialistas e utilizando um objetivo de previsão de vários toques, o Deepseek-V3 mantém uma distribuição equilibrada de tokens entre os especialistas, impedindo assim qualquer perda de dados durante o treinamento [2].
Essas medidas refletem o compromisso da Deepseek em otimizar seus processos de treinamento, minimizando a perda de dados e maximizando a eficiência computacional.
Citações:
[1] https://github.com/deepseek-ai/deepseek-v2/issues/5
[2] https://arxiv.org/html/2412.19437v1
[3] https://www.tradingview.com/news/financemagnates:c7148cfce094b:0-why-s-crypto-wear-wow-Fake-Deepseek-Tokens-efect-hils-of-taders/
[4] https://planetbanatt.net/articles/deepseek.html
[5] https://www.financemagnates.com/cryptocurrency/why-is-crypto-wear-wow-dake-deepseek-tokens-affect-hils-of-traders/
[6] https://arxiv.org/html/2405.04434v5
[7] https://www.binance.com/square/post/19557042115937
[8] https://community.openai.com/t/will-deepseek-r1-force-openai-to-reduce-token-prices/1097716