Compararea mecanismelor de rutare a experților în Deepseek-V2 și Deepseek-V3

Care sunt principalele diferențe între mecanismele de rutare a experților în Deepseek-V2 și Deepseek-V3

Principalele diferențe între mecanismele de rutare a experților în Deepseek-V2 și Deepseek-V3 pot fi rezumate după cum urmează:

Deepseek-V2 Expert Ruting

-Mecanism de rutare limitat de dispozitiv: Deepseek-V2 folosește un mecanism de rutare limitat de dispozitiv pentru a distribui experți pe mai multe dispozitive. Această abordare asigură că experții țintă pentru fiecare simbol sunt răspândiți pe un număr limitat de dispozitive, selectând de obicei experții de top-K din aceste dispozitive. Această strategie ajută la gestionarea comunicării generale și asigură procesarea paralelă eficientă [1] [5].

-Pierderi auxiliare pentru echilibrul de încărcare: Deepseek-V2 introduce trei tipuri de pierderi auxiliare la nivel de experți, nivel de dispozitiv și nivel de comunicare pentru a menține echilibrul de încărcare în timpul antrenamentului. Aceste pierderi ajută la prevenirea prăbușirii rutelor, asigurându -se că niciun expert nu este utilizat excesiv, în timp ce altele rămân subutilizate [1] [6].

- Numărul de experți și activare: Deepseek-V2 are 160 de experți plus doi experți partajați, doar șase experți activați în timpul inferenței. Această activare selectivă reduce semnificativ numărul de parametri activi, ceea ce face ca modelul să fie mai eficient [5].

Deepseek-V3 Expert Ruting

- Specializare sporită a experților: Deepseek-V3 se bazează pe arhitectura MOE prin creșterea numărului de experți rutați pe strat cu 60%, de la 160 la 256. Această creștere îmbunătățește capacitatea modelului de cunoaștere și memorie [2].

- Experți partajați: Deepseek-V3 păstrează conceptul de experți partajați, care sunt întotdeauna activați. Fiecare strat de rețea de rețea (FFN) are un expert comun și există trei straturi în care toți experții sunt activați, îmbunătățind capacitatea modelului de a capta cunoștințe comune în contexte [2] [4].

-Afinitate token-to-expert: Alocarea jetoanelor către experți se bazează pe afinitatea token-to-expert în spațiul de încorporare. Cu toate acestea, Deepseek-V3 se confruntă cu provocări legate de prăbușirea rutării, în care jetoanele pot fi dirijate în mod constant către aceiași experți, împiedicând potențial instruirea altor experți [2].

- Strategia MOE agresivă: Deepseek-V3 adoptă o strategie MOE mai agresivă, folosind precizia FP8 pentru instruire, care permite un calcul și o scalare mai eficiente. Această abordare permite modelului să utilizeze eficient activarea rară, optimizând utilizarea parametrilor în timpul inferenței [2] [4].

În rezumat, în timp ce ambele modele folosesc arhitecturi MOE pentru o rutare eficientă și activare rară, Deepseek-V3 îmbunătățește această abordare cu o specializare sporită a experților, strategii MOE mai agresive și ajustări la configurațiile de experți partajate. Deepseek-V2 se concentrează pe pregătirea economică și inferența eficientă prin pierderi auxiliare de rutare limitată de dispozitiv și de echilibrare a sarcinii.

Citări:
[1] https://arxiv.org/pdf/2405.04434.pdf
[2] https://fireworks.ai/blog/deepseek-model-architecture
[3] https://www.chipstrat.com/p/deepseek-moe-and-v2
[4] https://dirox.com/post/deepseek-v3-the-open-source-AI-revolution
[5] https://thesalt.substack.com/p/deepseek-v2-a-huge-llm-with-eficient
[6] https://stratechery.com/2025/deepseek-faq/
[7] https://arxiv.org/html/2405.04434v3
[8] https://www.youtube.com/watch?v=4UCNSFBQMDA