DeepSeek의 MOE (Mix-of-Experts) 시스템 : 효율성 및 성능 향상

DeepSeek의 Experts 시스템이 효율성을 향상시키는 방법

DeepSeek의 MOE (Mix-of-Experts) 시스템은 고성능을 유지하면서 매개 변수 사용 및 계산 비용을 최적화하는 혁신적인 아키텍처 전략을 통해 효율성을 향상시킵니다.

효율성 향상을위한 주요 전략

1. 세분화 된 전문가 세분화 :
Deepseekmoe는 전문가를 더 작고 전문화 된 유닛으로 분류하는 방법을 소개합니다. 피드 포워드 신경 네트워크 (FFN) 중간 숨겨진 치수를 분할함으로써 시스템은 전체 매개 변수 수를 증가시키지 않고 더 많은 수의 세밀한 전문가를 활성화 할 수 있습니다. 이 미세 분류는 전문가간에 지식을보다 정확하게 할당하여 각 전문가가 데이터의 뚜렷한 측면에 집중하여 활성화 된 매개 변수 간의 전문화 및 중복을 감소시킬 수 있도록합니다 [1] [2].

2. 공유 전문가 격리 :
이 아키텍처는 특정 전문가가 항상 활성화되는 공유 엔터티 역할을하도록 분리시킵니다. 이 전략은 다양한 상황에서 공통 지식을 포착하고 통합하여 다른 라우팅 전문가들 사이에서 중복성을 완화합니다. DeepSeekmoe는 이러한 공유 전문가에 공통 지식을 압축함으로써 각 라우팅 전문가가 고유 한 정보에 집중하여 매개 변수 효율성과 전문화를 향상시킬 수 있도록합니다 [2] [4].

성능 결과

DeepSeekmoe는 계산이 적음으로써 상당한 성능 이득을 보여줍니다. 예를 들어, 20 억 파라미터를 가진 모델은 컴퓨팅 리소스의 약 40% 만 사용하면서 더 큰 모델 (예 : 29 억 파라미터가있는 Gshard)과 비슷한 결과를 얻습니다 [1]. 또한 160 억 개의 매개 변수로 확장 될 때 LLAMA2와 같은 다른 모델에 대해 경쟁력있는 성능을 유지하면서 계산 요구를 크게 줄입니다 [1] [2].

요약하면 DeepSeek의 MOE 시스템은 전문화 된 전문가의 목표 활성화를 허용하고 공유 지식 구조를 통한 중복성을 최소화함으로써 효율성을 향상시킵니다. 이로 인해 복잡한 작업을 효과적으로 처리 할 수있는 강력하면서도 리소스 효율적인 모델이 발생합니다.

인용 :
[1] https://aclanthology.org/2024.acl-long.70/
[2] https://arxiv.org/html/2401.06066v1
[3] https://www.reddit.com/r/localllama/comments/1clkld3/deepseekv2_a_strong_economical_and_efficient/
[4] https://aclanthology.org/2024.acl-long.70.pdf
[5] https://arxiv.org/abs/2405.04434
[6] https://adasci.org/deepseek-v3- 여기-aptimizing-efficiency-and-scale/
[7] https://openreview.net/forum?id=mwhan6r7os
[8] https://seo.ai/blog/deepseek-ai-statistics-and-facts
[9] https://arxiv.org/html/2405.04434v3
[10] https://daily.dev/blog/deepseek-evely-need-to- know-about-this-newlm-in-on-place