Afiniteto balas „Deepseek-V3“: ekspertų pasirinkimas ekspertų mišinyje architektūroje

Ar galite paaiškinti giminingumo balo vaidmenį ekspertų atrankos procese „Deepseek-V3“

„Deepseeek-V3“ afiniteto balas vaidina lemiamą vaidmenį ekspertų atrankos procese jo ekspertų mišinyje (MOE) architektūroje. Ši architektūra yra skirta efektyviai tvarkyti didelio masto kalbos modeliavimo užduotis, dinamiškai suaktyvinant ekspertų pogrupį, pagrįstą įvesties žetonais.

afiniteto balų skaičiavimas

Afiniteto balas apskaičiuojamas kaip įvesties žetono įterpimo taškas ir konkretaus eksperto centroidas. „Centroid“ gali būti laikoma kiekvieno eksperto reprezentaciniu vektoriumi, kuris gali būti išvestas iš vidutinių aktyvacijų ar įvesties, kurias ekspertas apdoroja. Šis DOT produktas matuoja, kaip glaudžiai suderintas su kiekvieno turimo eksperto kompetencija.

Ekspertų atrankos procesas

1. „Top-K“ maršrutas: kiekvienam įvesties prieigos raktui „Deepseek-V3“ pasirenka 8 geriausius ekspertus, kurių afiniteto balai yra didžiausi. Šis procesas yra žinomas kaip „Top-K“ maršrutas, kur k fiksuotas 8, šiuo atveju [1] [7].

2. Šališkumo koregavimas: siekiant išvengti maršruto žlugimo, kai per daug žetonų yra nukreipiami tiems pačiai ekspertams, „Deepseeek-V3“ įveda dinaminį šališkumo koregavimą. Kiekvienas ekspertas turi šališkumo terminą $$ B_I $$, kuris pridedamas prie jo giminingumo balo maršruto metu. Jei ekspertas yra perkrautas, jo paklaida sumažėja, o jei jis nepakankamai išnaudojamas, padidėja jo paklaida. Šis koregavimas padeda išlaikyti subalansuotą darbo krūvį visiems ekspertams, nenaudojant aiškių pagalbinių nuostolių [1] [3].

3. Varžybos mechanizmas: Varžybos mechanizmas apskaičiuoja kiekvieno žetono balą ir pasirenka tinkamiausius maršruto ekspertus, remiantis šiais balais. Tai užtikrina, kad modelis efektyviai paskirs skaičiavimo išteklius tik suaktyvindamas reikiamus ekspertus kiekvienam prieigos raktui [3].

Afinities balo pranašumai

- Efektyvumas: Pasirinkus ekspertus, pagrįstus afiniteto balais, „Deepseeek-V3“ sumažina skaičiavimo išlaidas, suaktyvindamas tik dalį visų modelio parametrų kiekvienam prieigos raktui. Tai lemia efektyvesnius išvadų ir mokymo procesus [4] [8].

- Specializacija: „Affinity“ balas leidžia geriau specializuotis tarp ekspertų. Kiekvienas ekspertas gali sutelkti dėmesį į konkrečius modelius ar užduotis, padidindamas bendrą modelio reprezentacinę galią ir sugebėjimą tvarkyti įvairius įvestis [1] [2].

- Stabilumas: dinaminis šališkumo koregavimas užtikrina, kad nė vienas ekspertas nebus perkrautas, išlaikant stabilumą tiek treniruotėse, tiek išvadoje. Tai neleidžia modeliui mesti žetonų dėl perkrovos, o tai buvo ankstesnių versijų problema [2] [3].

Apibendrinant galima pasakyti, kad afiniteto balas „Deepseeek-V3“ yra labai svarbus dinamiškai parinkti tinkamiausius kiekvieno įvesties žetono ekspertus, užtikrinant efektyvų ir specializuotą apdorojimą, išlaikant modelio stabilumą.

Citatos:
[1] https://gonzoml.substack.com/p/deepseek-v3-technical-details
[2] https://martinfowler.com/articles/deepseek-papers.html
[3] https://www.youtube.com/watch?v=BV7CT-_SPQY
[4] https://www.linkedin.com/pulse/why-main-benefit-mixture-experts-moe-models-qi-he-nkgbe
[5] https://www.linkedin.com/pulse/unpacking-deepseek-v3-technical-innovations-question-cost-statton-juplc
[6] https://latenode.com/blog/deepseek-v3-and-deepseek-r1-integrations-are-now-on-latenode
[7] https://www.linkedin.com/pulse/dynynyally-selecting-number-expert-nee-models-lice-deepseek-rosi%c4%87-ckytf
[8] https://arxiv.org/html/2412.19437v1
[9] https://www.bentoml.com/blog/the-complete-guide-to-deepseek-models-from-v3-to-r1-and----neond