Deepseek-V3에서 Sigmoid 게이팅 및 다중 헤드 잠재 관심

Sigmoid Gating이 DeepSeek-V3의 MLA 아키텍처와 어떻게 상호 작용하는지 설명해 주시겠습니까?

Sigmoid Gating이 DeepSeek-V3의 MLA (Multi-Head Denent Interection) 아키텍처와 어떻게 상호 작용하는지 이해하려면 모델 내에서 구성 요소와 그 역할을 모두 세분화합시다.

멀티 헤드 잠재 관심 (MLA)

** MLA는 DeepSeek-V3의 핵심 구성 요소로 변압기 기반 모델에서주의 메커니즘을 최적화하도록 설계되었습니다. 기존의 멀티 헤드주의와 달리 MLA는주의 키와 값에 저급 조인트 압축을 사용합니다. 이 압축은주의 메커니즘에 들어가기 전에 쿼리 (Q), 키 (k) 및 값 (v) 벡터의 차원을 감소시킵니다. 예를 들어, 입력에 (시퀀스 길이 Â 2000) 모양이 있으면 MLA는 Q, K 및 V 벡터를 (시퀀스 길이 Â 100)의 모양으로 줄일 수 있습니다. 이 감소는 추론 중 키 값 (KV) 캐시를 크게 최소화하여 성능을 희생하지 않고 처리 시간이 더 빠릅니다 [5] [9].

Sigmoid Gating in Deepseek-V3

Deepseek-V3의 맥락에서, Sigmoid 게이팅은 Moe (Mix-of-Experts) 프레임 워크와 함께 사용됩니다. MOE 프레임 워크는 대형 신경 네트워크를 '전문가'라는 전문화 된 하위 네트워크로 나눕니다. 각 입력에 대해,이 전문가들의 하위 집합 만 활성화됩니다. Sigmoid 게이팅은 어떤 전문가가 활성화 할 전문가를 결정하는 라우팅 메커니즘에 적용됩니다.

MLA와의 상호 작용

MLA는 주로주의 프로세스를 최적화하는 데 중점을두고 있지만, Sigmoid Gating은 DeepSeek-V3의 별도이지만 보완적인 구성 요소 인 MoE 프레임 워크에서 역할을합니다. MOE 프레임 워크는 Sigmoid Gating을 사용하여 토큰이 다른 전문가에게 라우팅되는 방법을 관리합니다. 기존의 SoftMax 게이팅과 달리 특정 전문가가 다른 전문가보다 선호하는 극단적 인 사례로 이어질 수있는 Sigmoid Gating은 전문가 간의 토큰 분포를 유지하는 데 도움이됩니다. 이 균형은 라우팅 붕괴를 방지하는 데 중요하며, 모델이 조밀 한 모델처럼 행동으로 되돌아 가서 MOE 아키텍처의 효율성 이점을 잃을 수 있습니다 [5].

동적 바이어스 조정

DeepSeek-V3는 전문가 간의로드 균형을 유지하기 위해 동적 바이어스 조정을 도입합니다. 바이어스 용어는 라우팅 결정을 내리기 전에 전문가 친화력 점수에 추가됩니다. 이러한 편견은 훈련 중에 동적으로 조정됩니다. 전문가가 과부하가 걸리면 편향이 줄어들고 언더로드되면 바이어스가 증가합니다. 이 메커니즘은 보조 손실 함수에 의존하지 않고 부하가 균형을 유지하도록 보장하여 모델 성능에 부정적인 영향을 줄 수 있습니다 [5].

요약하면, MLA는 더 빠른 추론을위한주의 메커니즘을 최적화하지만 MOE 프레임 워크의 Sigmoid Gating은 전문가에게 토큰의 라우팅을 관리하여 계산 리소스의 효율적이고 균형 잡힌 활용을 보장합니다. 이 조합은 DeepSeek-V3의 전반적인 성능과 효율성을 향상시킵니다.

인용 :
[1] https://fireworks.ai/blog/deepseek-model-architecture
[2] https://huggingface.co/deepseek-ai/deepseek-v3
[3] https://arxiv.org/abs/1609.07160
[4] https://618media.com/en/blog/technical-architecture-of-deepseek-v3-explained/
[5] https://machinelearningatscale.substack.com/p/deepseek-v3-model
[6] https://www.reddit.com/r/localllama/comments/1i4em80/interesting_article_on_how_how_deepseek_has_improved/
[7] https://en.wikipedia.org/wiki/transformer_(deep_learning_architecture)
[8] https://ai.gopubby.com/deepseek-v3- 여기 -1-deepseekmoe-106cffc56c1
[9] https://pub.towardai.net/deepseek-r1-model-architecture-853fefac7050