Affinitetna ocena v Deepseek-V3: Strokovna izbira v arhitekturi mešanic izkušenj

Ali lahko pojasnite vlogo ocene afinitete v procesu strokovnega izbire Deepseek-V3

V Deepseek-V3 ima ocena afinitete ključno vlogo pri strokovnem izbirnem postopku v svoji arhitekturi mešanic eksperit (MOE). Ta arhitektura je zasnovana za učinkovito opravljanje velikih jezikovnih nalog z dinamičnim aktiviranjem podskupine strokovnjakov na podlagi vhodnih žetonov.

Izračun ocene afinitete

Ocena afinitete se izračuna kot produkt DOT vgrajenega žetona vhodnega žetona in centroida določenega strokovnjaka. Centroid je mogoče za vsakega strokovnjaka obravnavati kot reprezentativni vektor, ki bi lahko izhajal iz povprečnih aktivacij ali vhodov, ki jih strokovnjaki obdeluje. Ta izdelek DOT meri, kako tesno usklajen je žeton s strokovnim znanjem vsakega razpoložljivega strokovnjaka.

Proces izbire strokovnjakov

1. TOP-K usmerjanje: Za vsak vhodni žeton Deepseek-V3 izbere najboljših 8 strokovnjakov z najvišjimi ocenami afinitete. Ta postopek je znan kot top k usmerjanje, kjer je K v tem primeru pritrjena na 8 [1] [7].

2. Prilagoditev pristranskosti: Da bi preprečili propad usmerjanja, kjer je preveč žetonov usmerjeno na iste strokovnjake, Deepseek-V3 uvaja dinamično prilagoditev pristranskosti. Vsak strokovnjak ima izraz pristranskost $$ b_i $$, ki je med usmerjanjem dodan v oceno afinitete. Če je strokovnjak preobremenjen, se njegova pristranskost zmanjša in če je premalo izkoriščena, se njegova pristranskost poveča. Ta prilagoditev pomaga ohranjati uravnoteženo delovno obremenitev pri vseh strokovnjakih, ne da bi uporabili eksplicitne pomožne izgube [1] [3].

3. Mehanizem za gantiranje: Mehanizem za gantiranje izračuna oceno za vsak žeton in na podlagi teh rezultatov izbere najpomembnejše usmerjene strokovnjake. To zagotavlja, da model učinkovito dodeli računske vire, tako da aktivira le potrebne strokovnjake za vsak žeton [3].

Prednosti ocene afinitete

- Učinkovitost: Z izbiro strokovnjakov, ki temeljijo na ocenah afinitete, Deepseek-V3 zmanjša računske stroške, tako da aktivira le del skupnih parametrov modela za vsak žeton. Posledica tega je učinkovitejši sklepanje in procese usposabljanja [4] [8].

- Specializacija: Ocena afinitete omogoča boljšo specializacijo med strokovnjaki. Vsak strokovnjak se lahko osredotoči na posebne vzorce ali naloge, s čimer poveča celotno reprezentativno moč modela in sposobnost ravnanja z različnimi vhodi [1] [2].

- Stabilnost: Dinamična prilagajanje pristranskosti zagotavlja, da noben strokovnjak ni preobremenjen, kar ohranja stabilnost med treningom in sklepanjem. To preprečuje, da bi model spustil žetone zaradi preobremenitve, kar je bila težava v prejšnjih različicah [2] [3].

Če povzamemo, je ocena afinitete v Deepseek-V3 ključna za dinamično izbiro najpomembnejših strokovnjakov za vsak vhodni žeton, pri čemer zagotavlja učinkovito in specializirano obdelavo, hkrati pa ohranja stabilnost modela.

Navedbe:
[1] https://gonzoml.substack.com/p/deepseek-v3-technical-details
[2] https://martinfowler.com/articles/deepseek-papers.html
[3] https://www.youtube.com/watch?v=bv7ct-_spqy
[4] https://www.linkedin.com/pulse/what-main----mixt-experts-moe-models-qi-he-nkgbe
[5] https://www.linkedin.com/pulse/unpacking-deepseek-v3-technical-invations-question-cost-statton-Juplc
[6] https://latenode.com/blog/deepseek-v3-and-deepseek-r1-integrations-are-onw-on-latenode
[7] https://www.linkedin.com/pulse/Dynamic-selecting-number-expert-moel ---like-deepseek-rosi%C4%87-Ckytf
[8] https://arxiv.org/html/2412.19437V1
[9] https://www.bentoml.com/blog/the-complete-guide-to-epseek-models-from-V3-to-R1-And-Beyond