DeepSeek-V3에서 Sigmoid 게이팅을 사용하면 특히 MOE (Mix-of-Experts) 모델의 맥락에서 몇 가지 주요 이점이 있습니다. 자세한 장점은 다음과 같습니다.
1. 디퍼 커플 링 라우터 점수 : 모든 전문가의 점수를 정상화하는 전통적인 SoftMax 게이팅과 달리 Sigmoid Gating은 각 전문가의 점수를 독립적으로 계산할 수 있도록합니다. 이것은 라우터 점수를 매기시켜 한 전문가의 활성화가 다른 전문가의 활성화에 직접적인 영향을 미치지 않음을 의미합니다. 각 전문가의 점수는 다른 전문가의 점수에 의해 제한되지 않기 때문에 더 유연하고 미묘한 라우팅 결정으로 이어질 수 있습니다 [5].
2. 과도한 신뢰를 피 : SoftMax 게이팅은 때때로 단일 전문가가 매우 높은 확률로 선택되어 다른 관련 전문가를 무시하는 라우팅 결정에 지나치게 신뢰할 수 있습니다. Sigmoid 게이팅은 여러 전문가가 높은 확률로 활성화되어 모델 전체의 전문가의 균형 잡힌 활용을 촉진함으로써이를 완화시킵니다 [5].
3. 전문가 기여 보존 : Sigmoid 게이팅을 사용함으로써 각 전문가의 기여는보다 효과적으로 보존됩니다. 전문가 출력과 곱한 게이팅 값은 정규화없이 원래 친화력 점수에서 파생됩니다. 이것은 여러 전문가가 활성화 되더라도 각 전문가의 기여의 무결성이 유지되도록합니다 [3].
4. 라우팅의 유연성 : Sigmoid 게이팅은 모든 전문가의 엄격한 정규화를 시행하지 않기 때문에 라우팅 결정에 더 많은 유연성을 제공합니다. 이러한 유연성은 여러 전문가가 주어진 입력 토큰을 처리하는 데 동등한 관련이있는 시나리오에서 특히 유익 할 수있어 모델이 다양한 지식 소스를보다 효과적으로 활용할 수있게 해줍니다 [5].
5. 라우팅 붕괴 위험 감소 : 라우팅 붕괴는 모델이 작은 전문가의 작은 하위 집합을 일관되게 선호하여 밀도가 높은 모델로 효과적으로 되돌아 갈 때 발생합니다. 동적 바이어스 용어와 같은 다른 하중 균형 전략과 결합 된 Sigmoid Gating은 보조 손실을 통해 불균형을 직접 처벌하지 않고 전문가 간의 토큰의 균형 잡힌 분포를 장려함으로써이를 방지합니다 [3].
전반적으로, DeepSeek-V3에서 Sigmoid 게이팅을 사용하면 전문가 전문화 및 지식 공유를 효율적으로 관리하는 모델의 능력을 향상시켜 강력한 성능과 계산 효율성에 기여합니다.
인용 :
[1] https://community.aws/content/2rjj1wkztsfywvfsiibhwxeqmf1/four-unique-takeayways-from-deepseek-v3?lang=en
[2] https://ai.gopubby.com/deepseek-v3- 여기 -1-deepseekmoe-106cffc56c1
[3] https://machinelearningatscale.substack.com/p/deepseek-v3-model
[4] https://www.linkedin.com/posts/niccolo-gentile-phd-02208160_there-is-understandably-a-lot-of-activity-72895142669493376-q1ob
[5] https://mlfrontiers.substack.com/p/understanding-deepseek-v3
[6] https://metr.org/blog/2025-02-14-measuring-automated-kernel-engineering/
[7] https://arxiv.org/html/2412.19437v1
[8] https://stackoverflow.com/questions/56318636/what-are-the-benefits-of-using-a-sigmoid-function