Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon DeepSeek-v3의 전문가 선정 과정에서 친화력 점수의 역할을 설명해 주시겠습니까?


DeepSeek-v3의 전문가 선정 과정에서 친화력 점수의 역할을 설명해 주시겠습니까?


DeepSeek-V3에서, 친 화성 점수는 MOE (Mix-of-Experts) 아키텍처 내에서 전문가 선택 과정에서 중요한 역할을합니다. 이 아키텍처는 입력 토큰을 기반으로 전문가의 하위 집합을 동적으로 활성화하여 대규모 언어 모델링 작업을 효율적으로 처리하도록 설계되었습니다.

선호도 점수 계산

친화력 점수는 입력 토큰 임베딩의 도트 곱 및 특정 전문가의 중심으로 계산됩니다. 중심은 각 전문가의 대표 벡터로 생각할 수 있으며, 이는 전문가가 프로세스하는 평균 활성화 또는 입력에서 파생 될 수 있습니다. 이 DOT 제품은 토큰이 각 가용 전문가의 전문 지식과 얼마나 밀접하게 정렬되는지를 측정합니다.

전문가 선발 과정

1. Top-K 라우팅 : 각 입력 토큰에 대해 DeepSeek-V3는 가장 높은 친화력 점수를 가진 상위 8 명의 전문가를 선택합니다. 이 과정은 Top-K 라우팅이라고하며, 여기서 K는이 경우 8로 고정되어있다 [1] [7].

2. 바이어스 조정 : 너무 많은 토큰이 동일한 전문가에게 라우팅되는 라우팅 붕괴를 방지하기 위해 DeepSeek-V3는 동적 바이어스 조정을 소개합니다. 각 전문가는 라우팅 중에 선호도 점수에 추가되는 바이어스 용어 $$ B_I $$가 있습니다. 전문가에게 과부하가 걸리면 편향이 감소하고 활용률이 낮은 경우 편향이 증가합니다. 이 조정은 명시적인 보조 손실을 사용하지 않고 모든 전문가의 균형 잡힌 워크로드를 유지하는 데 도움이됩니다 [1] [3].

3. 게이팅 메커니즘 : 게이팅 메커니즘은 각 토큰의 점수를 계산하고 이러한 점수를 기반으로 가장 관련성이 높은 전문가를 선택합니다. 이를 통해 모델이 각 토큰에 필요한 전문가 만 활성화하여 계산 리소스를 효율적으로 할당하도록합니다 [3].

친화력 점수의 이점

- 효율성 : 선호도 점수를 기반으로 전문가를 선택함으로써 DeepSeek-V3은 각 토큰에 대한 모델의 총 매개 변수의 일부만 활성화하여 계산 비용을 줄입니다. 이것은보다 효율적인 추론 및 훈련 과정을 초래한다 [4] [8].

- 전문화 : 선호도 점수는 전문가들 사이의 더 나은 전문화를 허용합니다. 각 전문가는 특정 패턴이나 작업에 집중하여 모델의 전반적인 표현력과 다양한 입력을 처리 할 수있는 능력을 향상시킬 수 있습니다 [1] [2].

- 안정성 : 동적 바이어스 조정은 전문가가 과부하되지 않도록하여 훈련과 추론 모두 안정성을 유지합니다. 이것은 과부하로 인해 모델이 토큰을 떨어 뜨리지 못하게하는데, 이는 이전 버전에서 문제가된다 [2] [3].

요약하면, DeepSeek-V3의 친화력 점수는 각 입력 토큰에 대해 가장 관련성이 높은 전문가를 동적으로 선택하여 모델 안정성을 유지하면서 효율적이고 전문화 된 처리를 보장하는 데 중요합니다.

인용 :
[1] https://gonzoml.substack.com/p/deepseek-v3-technical-details
[2] https://martinfowler.com/articles/deepseek-papers.html
[3] https://www.youtube.com/watch?v=BV7ct-_spqy
[4] https://www.linkedin.com/pulse/what-main-benefit-mixture-moe-moe-moe-moe-moe-moe-moe-moe-moe-cgbe
[5] https://www.linkedin.com/pulse/unpacking-deepseek-v3-technovations-question-cost-statton-juplc
[6] https://latenode.com/blog/deepseek-v3-deepseek-r1-integrations-are-now-on-latenode
[7] https://www.linkedin.com/pulse/dynamically-selecting-number-moe-models-like-deepseek-rosi%C4%87-ckytf
[8] https://arxiv.org/html/2412.19437v1
[9] https://www.bentoml.com/blog/the-complete-guide-to-deepseek-models-from-v3-r1-and-beyond