Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon Jakie są główne różnice między mechanizmami routingu ekspertów w Deepseek-V2 i Deepseek-V3


Jakie są główne różnice między mechanizmami routingu ekspertów w Deepseek-V2 i Deepseek-V3


Główne różnice między mechanizmami routingu ekspertów w Deepseek-V2 i Deepseek-V3 można podsumować w następujący sposób:

DeepSeek-V2 ekspertowe routing

-Mechanizm routingu ograniczony do urządzeń: DeepSeek-V2 wykorzystuje mechanizm routingu ograniczony do urządzenia do dystrybucji ekspertów na wielu urządzeniach. Takie podejście zapewnia, że ​​docelowi eksperci dla każdego tokena są rozłożone na ograniczoną liczbę urządzeń, zwykle wybierając najwyższych ekspertów z tych urządzeń. Ta strategia pomaga zarządzać kosztami komunikacji i zapewnia wydajne przetwarzanie równoległe [1] [5].

-Straty pomocnicze dla równowagi obciążenia: Deepseek-V2 wprowadza trzy rodzaje strat pomocniczych na poziomie ekspertów, poziomu urządzenia i komunikacji w celu utrzymania równowagi obciążenia podczas szkolenia. Straty te pomagają zapobiec upadkowi routingu, zapewniając, że żaden pojedynczy ekspert nie jest nadmiernie wykorzystywany, podczas gdy inne pozostają niewykorzystane [1] [6].

- Liczba ekspertów i aktywacja: DeepSeek-V2 ma 160 ekspertów oraz dwóch wspólnych ekspertów, a tylko sześciu ekspertów aktywowano podczas wnioskowania. Ta selektywna aktywacja znacznie zmniejsza liczbę aktywnych parametrów, dzięki czemu model jest bardziej wydajny [5].

Deepseek-V3 Rooting

- Zwiększona specjalizacja ekspertów: DeepSeek-V3 opiera się na architekturze MOE poprzez zwiększenie liczby ekspertów kierowanych na warstwę o 60%, z 160 do 256. Wzrost ten zwiększa zdolność modelu do wiedzy i pamięci [2].

- Wspólni eksperci: Deepseek-V3 zachowuje koncepcję wspólnych ekspertów, którzy są zawsze aktywowane. Każda warstwa sieciowa (FFN) ma jeden wspólny ekspert i istnieją trzy warstwy, w których aktywowani są wszyscy eksperci, poprawiając zdolność modelu do przechwytywania powszechnej wiedzy w kontekście [2] [4].

-Pokreślenie token-do ekspertów: Przypisanie tokenów do ekspertów opiera się na powinowactwie token-do eksperta w przestrzeni osadzającej. Jednak Deepseek-V3 stoi przed wyzwaniami związanymi z upadkiem routingu, w którym tokeny mogą być konsekwentnie kierowane do tych samych ekspertów, potencjalnie utrudniając szkolenie innych ekspertów [2].

- Agresywna strategia MOE: Deepseek-V3 przyjmuje bardziej agresywną strategię MOE, wykorzystując precyzję FP8 do szkolenia, co pozwala na bardziej wydajne obliczenia i skalowanie. Takie podejście umożliwia modelowi skuteczne wykorzystanie rzadkiej aktywacji, optymalizując zastosowanie parametrów podczas wnioskowania [2] [4].

Podsumowując, podczas gdy oba modele wykorzystują architektury MOE do wydajnego routingu i rzadkiej aktywacji, DeepSeek-V3 zwiększa to podejście o zwiększoną specjalizację ekspertów, bardziej agresywne strategie MOE i dostosowanie do wspólnych konfiguracji ekspertów. DeepSeek-V2 koncentruje się na szkoleniu ekonomicznym i wydajnym wnioskowaniu poprzez ograniczone urządzenia routing i równoważenie obciążenia straty pomocnicze.

Cytaty:
[1] https://arxiv.org/pdf/2405.04434.pdf
[2] https://fireworks.ai/blog/deepseek-model-architecture
[3] https://www.chipstrat.com/p/deepseek-moe-and-v2
[4] https://dirox.com/post/deepseek-v3-the-open-source-ai-revolution
[5] https://thesalt.substack.com/p/deepseek-v2-a-huge-llm-with-efficierzy
[6] https://stratechery.com/2025/deepseek-faq/
[7] https://arxiv.org/html/2405.04434v3
[8] https://www.youtube.com/watch?v=4UCNSFBQMDA