DeepSeek-V2 및 DeepSeek-V3의 전문가 라우팅 메커니즘 비교

DeepSeek-V2와 DeepSeek-V3의 전문가 라우팅 메커니즘의 주요 차이점은 무엇입니까?

DeepSeek-V2와 DeepSeek-V3의 전문가 라우팅 메커니즘의 주요 차이점은 다음과 같이 요약 될 수 있습니다.

DeepSeek-V2 전문가 라우팅

-장치 제한 라우팅 메커니즘 : DeepSeek-V2는 장치 제한 라우팅 메커니즘을 사용하여 여러 장치에 전문가를 배포합니다. 이 접근 방식은 각 토큰의 대상 전문가가 제한된 수의 장치에 퍼져 있으며 일반적으로 이러한 장치에서 Top-K 전문가를 선택합니다. 이 전략은 통신 오버 헤드를 관리하고 효율적인 병렬 처리를 보장합니다 [1] [5].

-부하 잔액에 대한 보조 손실 : DeepSeek-V2는 교육 중에 부하 균형을 유지하기 위해 전문가 수준, 장치 수준 및 통신 수준의 세 가지 유형의 보조 손실을 도입합니다. 이러한 손실은 단일 전문가가 지나치게 활용되지 않도록함으로써 라우팅 붕괴를 방지하는 데 도움이됩니다.

- 전문가 및 활성화 수 : DeepSeek-V2에는 160 명의 전문가와 2 명의 공유 전문가가 있으며 추론 중에 6 명의 전문가 만 활성화되었습니다. 이 선택적 활성화는 활성 매개 변수의 수를 크게 줄여 모델을보다 효율적으로 만듭니다 [5].

deepseek-v3 전문가 라우팅

- 전문가 전문화 증가 : DeepSeek-V3는 계층 당 라우팅 전문가의 수를 160에서 256으로 증가시켜 MOE 아키텍처를 기반으로합니다.이 증가는 지식과 기억의 모델의 용량을 향상시킵니다 [2].

- 공유 전문가 : DeepSeek-V3는 항상 활성화되는 공유 전문가의 개념을 유지합니다. 각 FFN (Feed-Forward Network) 층에는 하나의 공유 전문가가 있으며, 모든 전문가가 활성화되는 세 가지 계층이있어 맥락에서 일반적인 지식을 캡처 할 수있는 모델의 능력이 향상됩니다 [2] [4].

-Token-to-Expert Affinity : 전문가에게 토큰을 할당하는 것은 임베딩 공간에서 토큰에서 엑스퍼 트 선호도를 기반으로합니다. 그러나 DeepSeek-V3은 토큰이 동일한 전문가에게 지속적으로 라우팅 될 수있는 라우팅 붕괴와 관련된 문제에 직면하여 잠재적으로 다른 전문가의 교육을 방해 할 수 있습니다 [2].

- 공격적인 MOE 전략 : DeepSeek-V3는보다 공격적인 MOE 전략을 채택하여 FP8 정밀도를 사용하여보다 효율적인 계산 및 스케일링을 가능하게합니다. 이 접근법을 통해 모델은 스파스 활성화를 효과적으로 활용하여 추론 중에 매개 변수 사용을 최적화 할 수 있습니다 [2] [4].

요약하면, 두 모델 모두 효율적인 라우팅 및 희소 활성화를 위해 MOE 아키텍처를 사용하지만 DeepSeek-V3은 전문가 전문화,보다 공격적인 MOE 전략 및 공유 전문가 구성에 대한 조정 으로이 접근법을 향상시킵니다. DeepSeek-V2는 장치 제한 라우팅 및 하중 밸런싱 보조 손실을 통한 경제적 훈련 및 효율적인 추론에 중점을 둡니다.

인용 :
[1] https://arxiv.org/pdf/2405.04434.pdf
[2] https://fireworks.ai/blog/deepseek-model-architecture
[3] https://www.chipstrat.com/p/deepseek-moe-and-v2
[4] https://dirox.com/post/deepseek-v3the-open-source-ai-revolution
[5] https://thesalt.substack.com/p/deepseek-v2-a-huge-llm-
[6] https://stratechery.com/2025/deepseek-faq/
[7] https://arxiv.org/html/2405.04434v3
[8] https://www.youtube.com/watch?v=4UCNSFBQMDA