V Deepseek-V3 hraje skóre afinity klíčovou roli v procesu výběru odborníků v rámci architektury směsi expertů (MOE). Tato architektura je navržena tak, aby efektivně zvládla rozsáhlé úkoly modelování jazyků dynamickou aktivací podmnožiny odborníků na základě vstupních tokenů.
Výpočet skóre afinity
Skóre afinity se vypočítá jako DOT produkt vložení vstupního tokenu a centroid konkrétního odborníka. Centroid lze považovat za reprezentativní vektor pro každého odborníka, který by mohl být odvozen z průměrných aktivací nebo vstupů, které odborník zpracovává. Tento produkt DOT měří, jak úzce je sladěn token s odborností každého dostupného odborníka.
Proces výběru odborníků
1. Top-K směrování: Pro každý vstupní token vybere DeepSeek-V3 top 8 odborníků s nejvyšší skóre afinity. Tento proces je známý jako top-K směrování, kde K je v tomto případě fixováno v 8 [1] [7].
2. Úprava zkreslení: Aby se zabránilo kolapsu směrování, kde je příliš mnoho žetonů směrováno ke stejným odborníkům, DeepSeek-V3 zavádí dynamické úpravy zkreslení. Každý odborník má termín zkreslení $$ b_i $$, který je přidán k jeho afinitnímu skóre během směrování. Pokud je odborník přetížen, jeho zkreslení se sníží a pokud je nedostatečně využívána, jeho zkreslení se zvýší. Tato úprava pomáhá udržovat vyvážené pracovní zátěž u všech odborníků bez použití explicitních pomocných ztrát [1] [3].
3. mechanismus hradlování: Mechanismus hradlování počítá skóre pro každý token a vybere nejdůležitější směrované odborníky na základě těchto skóre. Tím je zajištěno, že model účinně přiděluje výpočetní zdroje pouze aktivací nezbytných odborníků pro každý token [3].
Výhody skóre afinity
- Účinnost: Výběrem odborníků na základě skóre afinity DeepSeek-V3 snižuje výpočetní náklady aktivací pouze zlomku celkových parametrů modelu pro každý token. To má za následek efektivnější procesy inference a tréninku [4] [8].
- Specializace: Skóre afinity umožňuje lepší specializaci mezi odborníky. Každý odborník se může zaměřit na specifické vzorce nebo úkoly, což zvyšuje celkovou reprezentativní sílu a schopnost modelu zvládnout různé vstupy [1] [2].
- Stabilita: Úprava dynamického zkreslení zajišťuje, že žádný odborník není přetížen a udržuje stabilitu během tréninku i odvození. To zabraňuje tomu, aby model poklesl tokeny v důsledku přetížení, což byl problém v dřívějších verzích [2] [3].
Stručně řečeno, skóre afinity v Deepseek-V3 je zásadní pro dynamické výběr nejdůležitějších odborníků pro každý vstupní token, což zajišťuje efektivní a specializované zpracování při zachování stability modelu.
Citace:
[1] https://gonzoml.substack.com/p/deepseek-v3-technical-details
[2] https://martinfowler.com/articles/deepseek-papers.html
[3] https://www.youtube.com/watch?v=BV7CT-_SPQY
[4] https://www.linkedin.com/pulse/what-main-benefit--experts-moe-models-qi-nkgbe
[5] https://www.linkedin.com/pulse/unpacking-deepseek-v3-technical-innovations-question-cost-hvězda-Juplc
[6] https://latenode.com/blog/deepseek-v3-and-deepseek-r1-integrations-are-now-on-latenode
[7] https://www.linkedin.com/pulse/Dynamically-selecting-Number-Expert-moe-Models-like-Deepseek-rosi%C4%87-CKYTF
[8] https://arxiv.org/html/2412.19437v1
[9] https://www.bentoml.com/blog/the-complete-guide-to-deepseek-models-from-V3-to-r1 and-beyond