Milliseid meetmeid võtab Deepseek koolituse ajal tokeni langemise vältimiseks

Deepseek kasutab koolituse ajal märkide langemise vältimiseks mitmeid strateegiaid, eriti oma kogemuste segu (MOE) arhitektuuris. Siin on peamised meetmed:

1. Märgi langemise strateegia: Deepseek kasutab marsruutimisvõimalustel põhinevat sümboolset väljalangevat lähenemisviisi, sarnaselt tavapäraste MOE mudelitega. See tähendab, et žetoonid langeb vastavalt nende hindetele, tagades, et märgide arv ületab teatud võimekuse üle ainult kõige olulisemaid märke. Mahutavus arvutatakse erinevalt, sõltuvalt sellest, kas keskendutakse asjatundlikule või seadme mõõtmele, mis aitab hallata, kuidas erinevad eksperdid või seadmed tõhusalt töödeldakse. [1].

2. Seadmetaseme sümboolne langemine: strateegia töötab peamiselt seadme tasemel, kus kõik ekspert hinded sorteeritakse, ja madalaima tõenäosusega žetoonid. See tagab, et iga seade suudab oma koormust hallata ilma ühe asjatundja ülekaalutamata, säilitades samal ajal üldise jõudluse efektiivsuse [1].

3. Garanteeritud sümboolne säilitamine: Deepseek on rakendanud konkreetse strateegia, mis tagab, et umbes 10% treeningjärjestuste žetoonidest ei langeks kunagi. See on ülioluline koolitusandmete terviklikkuse säilitamiseks ja olulise teabe säilitamise tagamiseks kogu koolitusprotsessi vältel [2] [6].

4. Koormuse tasakaalustamine: oma uusima versiooni Deepseek-V3-s kasutatakse tõhusat koormuse tasakaalustamise strateegiat, mis välistab treeningu ajal täielikult sümboolse langemise vajaduse. Ekspertide koormuste dünaamiliselt kohandades ja mitmetoimelise ennustamise eesmärki kasutades säilitab DeepSEEK-V3 tasakaalustatud märkide jaotus ekspertide vahel, takistades seega andmete kaotust koolituse ajal [2].

Need meetmed kajastavad Deepseeki pühendumust oma koolitusprotsesside optimeerimisele, minimeerides samal ajal andmete kadu ja maksimeerides arvutuslikku tõhusust.

Tsitaadid:
[1] https://github.com/deepseek-ai/deepseek-v2/issues/5
[2] https://arxiv.org/html/2412.19437v1
]
[4] https://planetbanatt.net/articles/deepseek.html
]
[6] https://arxiv.org/html/2405.04434v5
[7] https://www.binance.com/square/post/19557042115937
]