DeepSeek은 훈련 중, 특히 MOE (Mix-of-Experts) 아키텍처에서 토큰이 떨어지는 것을 방지하기 위해 몇 가지 전략을 사용합니다. 주요 조치는 다음과 같습니다.
1. 토큰 드로핑 전략 : DeepSeek은 기존 MOE 모델과 유사한 라우팅 확률을 기반으로 한 토큰 별 낙하 접근법을 사용합니다. 즉, 토큰 수가 특정 용량을 초과 할 때 토큰이 점수에 따라 떨어지면서 가장 중요한 토큰 만 폐기 할 수 있습니다. 용량은 전문가 또는 장치 차원에 초점을 맞추는 지에 따라 다르게 계산되며, 이는 다른 전문가 나 장치가 효과적으로 처리하는 방법을 관리하는 데 도움이됩니다 [1].
2. 장치 수준 토큰 삭제 : 전략은 주로 모든 전문가 점수가 정렬되는 장치 수준에서 작동하고 확률이 가장 낮은 토큰이 삭제됩니다. 이를 통해 각 장치는 전반적인 성능 효율성을 유지하면서 단일 전문가를 압도하지 않고도 부하를 관리 할 수 있습니다 [1].
3. 보장 된 토큰 보존 : DeepSeek은 훈련 시퀀스에서 토큰의 약 10%가 절대 삭제되지 않도록 특정 전략을 구현했습니다. 이것은 훈련 데이터의 무결성을 유지하고 훈련 과정 전체에서 중요한 정보가 보존되도록하는 데 중요합니다 [2] [6].
4.로드 밸런싱 : 최신 버전 인 DeepSeek-V3에서는 효과적인로드 밸런싱 전략이 사용되어 훈련 중에 토큰이 완전히 떨어질 필요가 없습니다. DeepSeek-V3는 전문가 부하를 동적으로 조정하고 다중 점화 예측 목표를 활용함으로써 전문가 간의 토큰의 균형 잡힌 분포를 유지하여 교육 중 데이터 손실을 방지합니다 [2].
이러한 조치는 데이터 손실을 최소화하고 계산 효율성을 극대화하면서 교육 프로세스를 최적화하려는 DeepSeek의 약속을 반영합니다.
인용 :
[1] https://github.com/deepseek-ai/deepseek-v2/issues/5
[2] https://arxiv.org/html/2412.19437v1
[3] https://www.tradingview.com/news/financemagnates:c7148cfce094b:0-why-is-crypto-womow-fake-deepseek-tokens-affect-of-traders/
[4] https://planetbanatt.net/articles/deepseek.html
[5] https://www.financemagnates.com/cryptocurrency/why-is-cryptoging-fake-deepseek-tokens-affect-clengs-of-traders/
[6] https://arxiv.org/html/2405.04434v5
[7] https://www.binance.com/square/post/19557042115937
[8] https://community.openai.com/t/will-deepseek-r1-force-openai-to-reduce-prices/1097716