DeepSeek-V3의 전문가 선발 프로세스는 전문가들에 대한 균형 잡힌 작업의 균형 잡힌 작업을 보장하여 전문가 (MOE) 아키텍처의 혼합을 활용하도록 설계되었습니다. 이 프로세스는 각 입력 토큰에 대해 가장 관련성이 높은 전문가 만 동적으로 활성화하여 완벽한 기술 조화를 이루는 데 중요합니다.
전문가 (MOE) 아키텍처의 혼합
DeepSeek-V3은 MOE 아키텍처를 사용하며, 여기에는 모델을 여러 작업 또는 지식 영역에 특화된 여러 "전문가"로 나누는 것이 포함됩니다. 이 모델에는 1 명의 공유 전문가와 256 명의 라우팅 전문가가 있으며, 8 명의 라우팅 전문가가 관련성에 따라 각 입력 토큰에 대해 활성으로 선택되었습니다 [1]. 이 접근법을 통해 모델은 각 작업에 대해 총 매개 변수의 일부만을 3,700 억 중 3,700 억으로 활성화하여 입력을보다 효율적으로 처리 할 수 있습니다 [6] [7].
전문가 선발 과정
DeepSeek-V3에서 전문가의 선택은 친화력 점수를 기반으로하며, 이는 입력 토큰 임베딩의 도트 산물 및 특정 전문가의 중심으로 계산됩니다. 이 점수는 전문가가 입력 토큰의 요구와 얼마나 잘 일치하는지를 결정합니다 [1]. 이 모델은 Top-K 선택 전략을 사용하며, 여기서 최고 점수 전문가가 처리를 위해 선택됩니다. 너무 많은 토큰이 소수의 전문가에게 전송되는 라우팅 붕괴를 피하기 위해 DeepSeek-V3는 보조가없는 부하 밸런싱 전략을 사용합니다.
보조 손실이없는로드 밸런싱
이 전략에는 라우팅 중에 친화력 점수에 편향을 추가하는 것이 포함됩니다. 바이어스는 배치 내 각 전문가의 사용에 따라 동적으로 조정됩니다. 전문가가 과부하가 걸리면 편견이 추가 과제를 방해하지 않도록 감소하는 반면, 과제가없는 전문가는 더 많은 사용을 장려하기 위해 편견이 증가했습니다 [1] [3]. 이 접근법은 추가 손실 기능이 필요하지 않고 작업량이 전문가에게 균등하게 배포되도록 보장하여 때로는 모델 성능을 해칠 수 있습니다 [4].
전문가 선발 과정의 이점
DeepSeek-V3의 전문가 선발 프로세스는 몇 가지 이점을 제공합니다.
-효율성 : 관련 전문가 만 활성화 함으로써이 모델은 계산 간접비를 줄여서 비용 효율적이고 에너지 효율이 높아집니다 [6] [9].
- 전문화 : 각 전문가는 특정 작업 또는 지식 영역을 전문으로 할 수 있으며, 다양한 입력의 미묘하고 정확한 처리로 이어질 수 있습니다 [1] [9].
- 확장 성 : MOE 아키텍처는 과도한 계산 비용없이 더 큰 모델을 허용하여보다 복잡하고 유능한 AI 시스템의 개발을 가능하게합니다 [4] [6].
전반적으로 DeepSeek-V3의 전문가 선택 프로세스는 전문가에게 작업을 동적으로 할당하고 효율성을 최적화하며 모델 성능 향상을 통해 완벽한 기술을 혼합합니다.
인용 :
[1] https://gonzoml.substack.com/p/deepseek-v3-technical-details
[2] https://www.herohunt.ai/blog/deepseeks-ai-model-revolutizing-global-recruitment
[3] https://www.youtube.com/watch?v=BV7ct-_spqy
[4] https://www.linkedin.com/pulse/what-main-benefit-mixture-moe-moe-moe-moe-moe-moe-moe-moe-moe-cgbe
[5] https://www.reddit.com/r/localllama/comments/1hr56e3/notes_on_deepseek_v3_is_it_truly_better_than/
[6] https://alliedinsight.com/blog/deepseeks-technological-innovations-a-deep-dive-into-the-v3-model/
[7] https://huggingface.co/deepseek-ai/deepseek-v3
[8] https://mindflow.io/blog/deepseek-vs-openai-what-is-deepseek-what-deepseek-do
[9] https://tldv.io/blog/what-is-deepseek/
[10] https://www.bentoml.com/blog/the-complete-guide-to-deepseek-models-from-v3-r1-and-beyond