Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon 훈련 중에 토큰이 떨어지는 것을 방지하기 위해 Deepseek가 어떤 조치를 취하는지


훈련 중에 토큰이 떨어지는 것을 방지하기 위해 Deepseek가 어떤 조치를 취하는지


DeepSeek은 훈련 중, 특히 MOE (Mix-of-Experts) 아키텍처에서 토큰이 떨어지는 것을 방지하기 위해 몇 가지 전략을 사용합니다. 주요 조치는 다음과 같습니다.

1. 토큰 드로핑 전략 : DeepSeek은 기존 MOE 모델과 유사한 라우팅 확률을 기반으로 한 토큰 별 낙하 접근법을 사용합니다. 즉, 토큰 수가 특정 용량을 초과 할 때 토큰이 점수에 따라 떨어지면서 가장 중요한 토큰 만 폐기 할 수 있습니다. 용량은 전문가 또는 장치 차원에 초점을 맞추는 지에 따라 다르게 계산되며, 이는 다른 전문가 나 장치가 효과적으로 처리하는 방법을 관리하는 데 도움이됩니다 [1].

2. 장치 수준 토큰 삭제 : 전략은 주로 모든 전문가 점수가 정렬되는 장치 수준에서 작동하고 확률이 가장 낮은 토큰이 삭제됩니다. 이를 통해 각 장치는 전반적인 성능 효율성을 유지하면서 단일 전문가를 압도하지 않고도 부하를 관리 할 수 ​​있습니다 [1].

3. 보장 된 토큰 보존 : DeepSeek은 훈련 시퀀스에서 토큰의 약 10%가 절대 삭제되지 않도록 특정 전략을 구현했습니다. 이것은 훈련 데이터의 무결성을 유지하고 훈련 과정 전체에서 중요한 정보가 보존되도록하는 데 중요합니다 [2] [6].

4.로드 밸런싱 : 최신 버전 인 DeepSeek-V3에서는 효과적인로드 밸런싱 전략이 사용되어 훈련 중에 토큰이 완전히 떨어질 필요가 없습니다. DeepSeek-V3는 전문가 부하를 동적으로 조정하고 다중 점화 예측 목표를 활용함으로써 전문가 간의 토큰의 균형 잡힌 분포를 유지하여 교육 중 데이터 손실을 방지합니다 [2].

이러한 조치는 데이터 손실을 최소화하고 계산 효율성을 극대화하면서 교육 프로세스를 최적화하려는 DeepSeek의 약속을 반영합니다.

인용 :
[1] https://github.com/deepseek-ai/deepseek-v2/issues/5
[2] https://arxiv.org/html/2412.19437v1
[3] https://www.tradingview.com/news/financemagnates:c7148cfce094b:0-why-is-crypto-womow-fake-deepseek-tokens-affect-of-traders/
[4] https://planetbanatt.net/articles/deepseek.html
[5] https://www.financemagnates.com/cryptocurrency/why-is-cryptoging-fake-deepseek-tokens-affect-clengs-of-traders/
[6] https://arxiv.org/html/2405.04434v5
[7] https://www.binance.com/square/post/19557042115937
[8] https://community.openai.com/t/will-deepseek-r1-force-openai-to-reduce-prices/1097716