Główne różnice między mechanizmami routingu ekspertów w Deepseek-V2 i Deepseek-V3 można podsumować w następujący sposób:
DeepSeek-V2 ekspertowe routing
-Mechanizm routingu ograniczony do urządzeń: DeepSeek-V2 wykorzystuje mechanizm routingu ograniczony do urządzenia do dystrybucji ekspertów na wielu urządzeniach. Takie podejście zapewnia, że docelowi eksperci dla każdego tokena są rozłożone na ograniczoną liczbę urządzeń, zwykle wybierając najwyższych ekspertów z tych urządzeń. Ta strategia pomaga zarządzać kosztami komunikacji i zapewnia wydajne przetwarzanie równoległe [1] [5].
-Straty pomocnicze dla równowagi obciążenia: Deepseek-V2 wprowadza trzy rodzaje strat pomocniczych na poziomie ekspertów, poziomu urządzenia i komunikacji w celu utrzymania równowagi obciążenia podczas szkolenia. Straty te pomagają zapobiec upadkowi routingu, zapewniając, że żaden pojedynczy ekspert nie jest nadmiernie wykorzystywany, podczas gdy inne pozostają niewykorzystane [1] [6].
- Liczba ekspertów i aktywacja: DeepSeek-V2 ma 160 ekspertów oraz dwóch wspólnych ekspertów, a tylko sześciu ekspertów aktywowano podczas wnioskowania. Ta selektywna aktywacja znacznie zmniejsza liczbę aktywnych parametrów, dzięki czemu model jest bardziej wydajny [5].
Deepseek-V3 Rooting
- Zwiększona specjalizacja ekspertów: DeepSeek-V3 opiera się na architekturze MOE poprzez zwiększenie liczby ekspertów kierowanych na warstwę o 60%, z 160 do 256. Wzrost ten zwiększa zdolność modelu do wiedzy i pamięci [2].
- Wspólni eksperci: Deepseek-V3 zachowuje koncepcję wspólnych ekspertów, którzy są zawsze aktywowane. Każda warstwa sieciowa (FFN) ma jeden wspólny ekspert i istnieją trzy warstwy, w których aktywowani są wszyscy eksperci, poprawiając zdolność modelu do przechwytywania powszechnej wiedzy w kontekście [2] [4].
-Pokreślenie token-do ekspertów: Przypisanie tokenów do ekspertów opiera się na powinowactwie token-do eksperta w przestrzeni osadzającej. Jednak Deepseek-V3 stoi przed wyzwaniami związanymi z upadkiem routingu, w którym tokeny mogą być konsekwentnie kierowane do tych samych ekspertów, potencjalnie utrudniając szkolenie innych ekspertów [2].
- Agresywna strategia MOE: Deepseek-V3 przyjmuje bardziej agresywną strategię MOE, wykorzystując precyzję FP8 do szkolenia, co pozwala na bardziej wydajne obliczenia i skalowanie. Takie podejście umożliwia modelowi skuteczne wykorzystanie rzadkiej aktywacji, optymalizując zastosowanie parametrów podczas wnioskowania [2] [4].
Podsumowując, podczas gdy oba modele wykorzystują architektury MOE do wydajnego routingu i rzadkiej aktywacji, DeepSeek-V3 zwiększa to podejście o zwiększoną specjalizację ekspertów, bardziej agresywne strategie MOE i dostosowanie do wspólnych konfiguracji ekspertów. DeepSeek-V2 koncentruje się na szkoleniu ekonomicznym i wydajnym wnioskowaniu poprzez ograniczone urządzenia routing i równoważenie obciążenia straty pomocnicze.
Cytaty:
[1] https://arxiv.org/pdf/2405.04434.pdf
[2] https://fireworks.ai/blog/deepseek-model-architecture
[3] https://www.chipstrat.com/p/deepseek-moe-and-v2
[4] https://dirox.com/post/deepseek-v3-the-open-source-ai-revolution
[5] https://thesalt.substack.com/p/deepseek-v2-a-huge-llm-with-efficierzy
[6] https://stratechery.com/2025/deepseek-faq/
[7] https://arxiv.org/html/2405.04434v3
[8] https://www.youtube.com/watch?v=4UCNSFBQMDA