Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon 바이어스 용어의 동적 조정은 deepseek-v3에서 시그 모이 드 게이팅을 보완하는 방법


바이어스 용어의 동적 조정은 deepseek-v3에서 시그 모이 드 게이팅을 보완하는 방법


DeepSeek-V3에서는 편견 항의 동적 조정과 시그 모이 드 게이팅은 전문가들 사이의 부하 불균형 문제를 해결함으로써 모델의 효율성과 성능을 향상시키기 위해 함께 작동합니다. 다음은 이러한 구성 요소가 서로를 보완하는 방법에 대한 자세한 설명입니다.

바이어스 용어의 동적 조정

DeepSeek-V3는 각 전문가의 편견 항을 소개하며, 이는 부하 균형을 유지하기 위해 훈련 중에 동적으로 조정됩니다. 이 접근법은 최적의 라우팅 결정보다 부하 균형을 우선시하여 모델 성능에 부정적인 영향을 줄 수있는 보조 손실의 필요성을 피합니다. BIAS 용어는 Top-K 라우팅 결정을 내리기 전에 Expert Affinity Score에 추가되지만 원래 친화력 점수에서 파생 된 게이팅 값에는 영향을 미치지 않습니다. 이를 통해 균형 잡힌 라우팅을 촉진하면서 전문가의 기여도가 그대로 유지됩니다.

- 조정 메커니즘 : 전문가에게 과부하가 발생하면 (평균보다 더 많은 토큰을 받으면) 바이어스 용어가 줄어 듭니다. 반대로, 전문가가 언더로드되면 바이어스 용어가 증가합니다. 이 조정은 라우팅 붕괴를 방지하는 데 도움이되며, 모델이 몇몇 전문가를 과도하게 선호하여 비효율적 인 계산과 전문화 이점을 줄일 수 있습니다.

sigmoid 게이팅

DeepSeek-V3은 전통적인 SoftMax 게이팅을 전문가 라우팅을 위해 Sigmoid 게이팅으로 대체합니다. Sigmoid 함수는 실제 값의 숫자를 0과 1 사이의 값에 매핑하기 때문에 각 전문가는 선택 될 수있는 기회를 가질 수 있습니다. SoftMax와 달리 전문가들 사이에서 경쟁 환경을 만들 수있는 SoftMax (한 전문가의 이익이 다른 사람의 손실 인 경우), Sigmoid Gating은 각 전문가의 점수가 다른 사람과 독립적이지 않도록 보장합니다.

- Sigmoid Gating의 이점 :이 접근법은 모델이 몇몇 전문가를 지나치게 선호하는 것을 방해하며, 이는 다른 전문가의 활용률을 낮추고 모델 성능을 줄일 수 있습니다. Sigmoid Gating은 각 전문가에게 공정한 샷을 제공함으로써 전문가의 균형 잡힌 다양한 활용을 촉진하여 모델의 전반적인 기능과 효율성을 향상시킵니다.

보완 시퀀스 별 보조 손실

기본 메커니즘은 보조 손실이 없지만 DeepSeek-V3는 보완적인 시퀀스 별 균형 손실을 포함합니다. 매우 작은 초반에 의해 제어되는이 손실은 단일 시퀀스가 ​​전문가의 작은 하위 집합을 크게 선호 할 수있는 극단적 인 사례를 방지하기위한 보호 역할을합니다. 전체 교육 역학에 크게 영향을 미치지 않으면 서 각 시퀀스 내에서 균형을 유지합니다.

동적 바이어스 조정 및 시그 모이 드 게이팅이 서로를 보완하는 방법

1. 균형 잡힌 전문가 활용 : 바이어스 용어의 동적 조정은 전문가가 지나치게 선호되거나 활용되지 않도록하여 모든 전문가의 균형 잡힌 부하를 유지합니다. Sigmoid Gating은 각 전문가에게 독립적 인 점수를 제공하고 경쟁을 줄이며 모든 전문가가 기여할 수있는 기회를 제공함으로써이를 지원합니다.

2. 효율적인 라우팅 : 전문가 활용을 기반으로 바이어스 용어를 동적으로 조정 함으로써이 모델은 성능을 손상시킬 수있는 보조 손실에 의존하지 않고도 가장 적합한 전문가에게 토큰을 효율적으로 배치 할 수 있습니다. Sigmoid 게이팅은보다 미묘한 선택 프로세스를 허용함으로써 이러한 효율적인 라우팅을 용이하게합니다.

3. 개선 된 모델 성능 : 동적 바이어스 조정과 시그 모이 드 게이팅의 조합은 각 토큰이 가장 적합한 전문가에 의해 처리되도록함으로써 모델 성능을 향상시킵니다. 이로 인해 전문가 간의 전문화 및 지식 공유가 향상되어 다양한 작업을 효율적으로 처리 할 수있는 모델의 능력이 향상됩니다.

요약하면, DeepSeek-V3의 바이어스 용어와 Sigmoid 게이팅의 동적 조정은 함께 작동하여 전통적인 보조 손실의 단점을 피하면서 균형 잡힌 전문가 활용, 효율적인 라우팅 및 개선 된 모델 성능을 달성하기 위해 함께 작동합니다.

인용 :
[1] https://machinelearningatscale.substack.com/p/deepseek-v3-model
[2] https://www.linkedin.com/posts/sathiyakeerthi_how-deepseek-v3-picks-perfect-experts-activity-7287631625310412800-ncyv
[3] https://proceedings.neurips.cc/paper_files/paper/2024/file/1cded4f97cf5f01a284c574110b7e3b9-paper-conference.pdf
[4] https://www.linkedin.com/posts/josif-grabocka-7651b37_241219437v1-activity-7289784195130781696-dm_v
[5] https://huggingface.co/deepseek-ai/deepseek-v3/blob/main/configuration_deepseek.py
[6] https://ai.gopubby.com/deepseek-v3- 여기 -1-deepseekmoe-106cffc56c1
[7] https://gonzoml.substack.com/p/deepseek-v3-technical-details
[8] https://www.youtube.com/watch?v=8V2L6Sjecw4
[9] https://rxiv.org/ai/
[10] https://fireworks.ai/blog/deepseek-model-architecture