DeepSeek izmanto vairākas stratēģijas, lai novērstu marķiera kritumu apmācības laikā, it īpaši tās eksemplāru (MOE) arhitektūrā. Šeit ir galvenie pasākumi:
1. Token Nopīšanas stratēģija: DeepSeek izmanto žetonu gudru nomešanas pieeju, kuras pamatā ir maršrutēšanas varbūtības, līdzīgi kā parastajiem MOE modeļiem. Tas nozīmē, ka žetoni tiek atmesti atbilstoši to rādītājiem, nodrošinot, ka, ja marķieru skaits pārsniedz noteiktu jaudu, tiek izmesti tikai vismazāk svarīgi žetoni. Iespēja tiek aprēķināta atšķirīgi atkarībā no tā, vai uzmanība tiek pievērsta ekspertam vai ierīces dimensijai, kas palīdz pārvaldīt, kā žetonus efektīvi apstrādā dažādi eksperti vai ierīces [1].
2. Ierīces līmeņa marķiera nomešana: stratēģija galvenokārt darbojas ierīces līmenī, kur visi ekspertu punkti tiek sakārtoti, un žetoni ar viszemākajām varbūtībām tiek atmesti. Tas nodrošina, ka katra ierīce var pārvaldīt savu slodzi, nepārspējot nevienu ekspertu, vienlaikus saglabājot vispārējo veiktspējas efektivitāti [1].
3. Garantētā žetonu aizture: DeepSeek ir ieviesis īpašu stratēģiju, lai nodrošinātu, ka aptuveni 10% no apmācības sekvenču marķieru nekad netiks atmesti. Tas ir ļoti svarīgi, lai saglabātu apmācības datu integritāti un nodrošinātu, ka visa apmācības procesā tiek saglabāta svarīga informācija [2] [6].
4. Load Balancing: savā jaunākajā versijā, DeepSeek-V3, tiek izmantota efektīva slodzes līdzsvarošanas stratēģija, kas novērš nepieciešamību pēc marķiera pilnīgas izzušanas apmācības laikā. Dinamiski pielāgojot ekspertu slodzes un izmantojot daudzstāvu prognozēšanas mērķi, DeepSEEK-V3 uztur līdzsvarotu žetonu sadalījumu starp ekspertiem, tādējādi novēršot jebkādu datu zaudēšanu apmācības laikā [2].
Šie pasākumi atspoguļo DeepSeek apņemšanos optimizēt apmācības procesus, vienlaikus samazinot datu zudumus un maksimāli palielinot skaitļošanas efektivitāti.
Atsauces:
[1] https://github.com/deepseek-ai/deepseek-v2/issues/5
[2] https://arxiv.org/html/2412.19437v1
.
[4] https://planetbanatt.net/articles/deepseek.html
[5] https://www.financemagnates.com/cryptocurrency/why-is-crypto-going-dow--fakeepseek-tokens-afect-tūkstošiem-s-taders/
[6] https://arxiv.org/html/2405.04434v5
[7] https://www.binance.com/square/post/19557042115937
[8] https://community.openai.com/t/will-depseek-r1-force-openai-to-reduce-token-prices/1097716