Deepseek-V3의 Sigmoid Gating : 혼합 운동 모델에서 라우팅 붕괴 방지

Sigmoid Gating은 DeepSeek-v3의 라우팅 붕괴 방지에 어떻게 도움이됩니까?

DeepSeek-V3의 Sigmoid Gating은 라우팅 붕괴를 방지하는 데 중요한 역할을합니다. 이는 일부 전문가가 다른 전문가보다 일관되게 선호되는 MOE (Mix-of-Experts) 모델의 일반적인 문제인 모델 리소스의 비효율적 인 교육 및 활용으로 이어집니다. Sigmoid Gating이 도움이되는 방법은 다음과 같습니다.

전통적인 SoftMax 게이팅 대 Sigmoid 게이팅

전통적인 MOE 모델은 종종 SoftMax 게이팅을 사용하여 "우승자"시나리오로 이어질 수 있습니다. SoftMax 출력은 정규화되어 1로 합산되므로 한 전문가가 거의 독점적으로 선택되는 극도의 확률, 특히 초기 가중치가 약간 더 나은 경우 극도의 확률을 초래할 수 있습니다. 이로 인해 다른 전문가들이 활용률이 낮고 훈련을받을 수있어 라우팅 붕괴가 발생할 수 있습니다.

대조적으로, Sigmoid Gating은 전문가 간의 정규화없이 각 전문가와 독립적으로 점수를 독립적으로 할당합니다. 이는 여러 전문가가 동시에 높은 점수를 가질 수 있음을 의미하므로 전문가 전체에 걸쳐 토큰을보다 균형 잡힌 토큰 배포 할 수 있습니다. Sigmoid Gating은 전문가 간의 엄격한 경쟁을 시행하지 않으며, 각 전문가가 기여할 수있는 공정한 기회를 얻도록함으로써 붕괴의 가능성을 줄입니다 [1] [4] [6].

동적 바이어스 조정

DeepSeek-V3은 각 전문가의 동적 바이어스 용어를 도입하여 시그 모이 드 게이팅을 더욱 향상시킵니다. 이러한 편견은 각 전문가의 부하에 따라 훈련 중에 조정됩니다. 전문가가 과부하가 걸리면 편견이 감소하여 추가 라우팅을 방해하지 않으며, 부하 전문가는 더 많은 토큰을 유치하기 위해 편견이 증가했습니다. 이러한 동적 조정은 모든 전문가의 균형 잡힌 부하를 유지하여 단일 전문가가 라우팅 결정을 지배하지 못하고 라우팅 붕괴를 방지하는 데 도움이됩니다 [2] [4] [6].

계층 적 게이트

DeepSeek-V3는 또한 계층 적 게이팅을 사용하여 여러 수준에서 희소성 제약을 적용합니다. 처음에는 굵은 전문가가 만들어지고 선택된 그룹 내에서 더 미세한 필터링이 이루어집니다. 이 계층 적 접근은 각 토큰에 대해 다양한 전문가 세트가 활성화되어 지나치게 전문화를 방지하고 다른 영역에서 일반화를 장려함으로써 라우팅 붕괴의 위험을 더욱 줄입니다 [1] [6].

노드 제한 라우팅

또한 DeepSeek-V3은 노드 제한 라우팅을 사용하여 각 토큰과 통신 할 수있는 노드 수를 제한합니다. 이 전략은 균형 잡힌 전문가 활용을 유지하면서 효율적인 교육 및 추론을 보장하는 크로스 노드 커뮤니케이션 오버 헤드를 최소화합니다 [6].

요약하면, DeepSeek-V3의 Sigmoid Gating은 여러 전문가가 엄격한 경쟁을 강요하지 않고 동시에 동시에 활성화 할 수 있도록하여 라우팅 붕괴를 방지하는 데 도움이됩니다. 동적 바이어스 조정 및 계층 적 게이팅은 각 전문가가 효과적으로 활용되도록하여 균형 잡힌 부하를 유지하고 전문가가 라우팅 결정을 지배하지 못하게합니다.

인용 :
[1] https://www.linkedin.com/posts/sathiyakeerthi_how-deepseek-v3-picks-perfect-experts-activity-7287631625310412800-ncyv
[2] https://martinfowler.com/articles/deepseek-papers.html
[3] https://epochai.substack.com/p/how-has-deepseek-proved-the-transformer
[4] https://machinelearningatscale.substack.com/p/deepseek-v3-model
[5] https://fireworks.ai/blog/deepseek-model-architecture
[6] https://aman.ai/primers/ai/deepseek-r1/
[7] https://gonzoml.substack.com/p/deepseek-v3-technical-details
[8] https://www.kisekilabs.com/blog-posts/why-deepseek-v3-matters-intheworld-of-llms