DeepSeek-v3 : 전문가 건축의 혼합에서 Sigmoid 기능으로 전문가 라우팅 향상

Sigmoid 함수가 DeepSeek-v3의 친화력 점수 계산에 어떤 영향을 미칩니 까

DeepSeek-V3에서 Sigmoid 기능은 전문가 (MOE) 아키텍처의 전문가 라우팅에 대한 친화력 점수 계산에 중요한 역할을합니다. SoftMax 함수를 사용하여 친화력 점수를 정상화하는 전통적인 MOE 모델과 달리 DeepSeek-V3은 Sigmoid 기능을 사용합니다. 이 변화는 여러 가지 방법으로 모델에 영향을 미칩니다.

1. 정규화 및 라우팅 : Sigmoid 함수는 친 화성 점수를 계산하는 데 사용되며, 이는 선택된 모든 친화력 점수 중에서 정규화되어 게이팅 값을 생성합니다. 이 접근법은 SoftMax에 비해보다 유연하고 미묘한 라우팅 메커니즘을 허용하며, 이는 때때로 특정 전문가가 지나치게 선호되는 경우 라우팅 붕괴로 이어질 수 있습니다 [4] [7].

2. 라우팅 붕괴 방지 : 라우팅 붕괴는 대부분의 토큰이 소량의 전문가로 라우팅 될 때 발생하여 계산 자원을 비효율적으로 사용합니다. DeepSeek-V3는 Sigmoid 게이팅을 사용하고 훈련 중에 동적으로 조정되는 편향 용어를 도입하여이를 완화시킵니다. 이 바이어스 용어는 모델 성능에 부정적인 영향을 줄 수있는 보조 손실에 의존하지 않고 전문가의 부하의 균형을 맞추는 데 도움이됩니다 [4] [9].

3. 바이어스 용어 및 동적 조정 : 모델은 각 전문가의 편향 항을 통합하며, 이는 Top-K 전문가를 선택하기 전에 친화력 점수에 추가됩니다. 이러한 바이어스 용어는 각 전문가의 부하에 따라 동적으로 조정됩니다. 전문가에게 과부하가 걸리면 바이어스 용어가 줄어들고 부하가 부하되면 바이어스 용어가 증가합니다. 이를 통해 추가 손실없이 전문가 간의 토큰 분포를 보장합니다 [4] [8].

4. 보완 시퀀스-보조 보조 손실 : DeepSeek-V3은 주로 보조 손실을 피하지만, 단일 시퀀스가 작은 전문가를 크게 선호하는 극단적 인 사례를 예방하기 위해 작은 시퀀스 별 균형 손실을 포함합니다. 이 손실은 전반적인 훈련 역학에 크게 영향을 미치지 않으면 서 보호 수단으로 작용합니다 [4].

5. 노드 제한 라우팅 : 통신 비용을 제어하기 위해 DeepSeek-V3은 노드 제한 라우팅을 사용하며, 여기서 각 토큰은 가장 높은 친화력 점수를 기반으로 최대 M 노드로 전송됩니다. 이 전략은 훈련 중에 거의 가득한 계산 통신 중첩을 가능하게하여 효율성을 향상시킬 수 있습니다 [4].

전반적으로, DeepSeek-V3에서 Sigmoid 함수를 사용하면보다 유연하고 효율적인 라우팅 메커니즘을 제공하여 성능을 희생하지 않고 전문가 활용 균형을 유지하는 모델의 능력에 기여합니다.

인용 :
[1] https://www.linkedin.com/posts/srijanie-dey_aibyhand-deeplearning-nerounnetworks-activity-729147904792657920-rye_
[2] https://community.aws/content/2rjj1wkztsfywvfsiibhwxeqmf1/four-unique-takeways-from-deepseek-v3?lang=en
[3] https://docs.openvino.ai/2025/notebooks/yolov11-keypoint-detection-with output.html
[4] https://machinelearningatscale.substack.com/p/deepseek-v3-model
[5] https://ai.gopubby.com/deepseek-v3- 여기-3-auxiliary-loss-free-load-balancing-4beeb734ab1f
[6] https://neurips.cc/virtual/2024/poster/96407
[7] https://www.gdsprs.com/bbs/board.php?bo_table=free&wr_id=2559&sst=wr_hit&sod=desc&sop=and&page=147&device=pc
[8] https://www.mlsys.ai/papers/deepseek_v3.html
[9] https://gonzoml.substack.com/p/deepseek-v3-technical-details