Попередження токенів у навчанні DeepSeek: Архітектура та стратегії МО

Які заходи вживають DeepSeek, щоб запобігти падінню токенів під час тренувань

DeepSeek використовує кілька стратегій для запобігання падінню токенів під час навчання, особливо в архітектурі суміші-експертів (МО). Ось ключові заходи:

1. Стратегія скидання токенів: DeepSeek використовує підхід до падіння маршрутизації на основі ймовірностей маршрутизації, подібних до звичайних моделей MOE. Це означає, що жетони відкидаються відповідно до їх балів, гарантуючи, що лише найменш важливі жетони відкидаються, коли кількість жетонів перевищує певну здатність. Ємність обчислюється по -різному залежно від того, чи зосереджено увагу на експерті чи вимірі пристрою, що допомагає керувати тим, як ефективно обробляються жетони різними експертами чи пристроями [1].

2. Падіння токенів на рівні пристрою: стратегія в основному працює на рівні пристрою, де всі експертні бали сортуються, а жетони з найменшими ймовірностями відкидаються. Це гарантує, що кожен пристрій може керувати своїм навантаженням, не переважаючи жодного експерта, зберігаючи загальну ефективність продуктивності [1].

3. Гарантоване утримання жетонів: DeepSeek реалізував конкретну стратегію, щоб забезпечити приблизно 10% жетонів від тренувальних послідовностей ніколи не буде відпущено. Це має вирішальне значення для підтримки цілісності даних про навчання та забезпечення збереження важливої інформації протягом усього навчального процесу [2] [6].

4. Врівноважування навантаження: У своїй останній версії використовується DeepSeek-V3, використовується ефективна стратегія балансування навантаження, яка виключає потребу в скиданнях токенів взагалі під час тренувань. Динамічно коригуючи експертні навантаження та використовуючи багаторічну мету прогнозування, DeepSeek-V3 підтримує збалансований розподіл жетонів у експертів, тим самим запобігаючи будь-якій втраті даних під час навчання [2].

Ці заходи відображають прихильність DeepSeek до оптимізації його навчальних процесів, мінімізуючи втрату даних та максимізуючи ефективність обчислень.

Цитати:
[1] https://github.com/deepseek-ai/deepseek-v2/issues/5
[2] https://arxiv.org/html/2412.19437v1
.
[4] https://planetbanatt.net/articles/deepseek.html
[5] https://www.financemagnates.com/cryptocurrency/why-is-crypto-proeep-down-deepseek-tokens-affect-thyso-of-traders/
[6] https://arxiv.org/html/2405.04434v5
[7] https://www.binance.com/square/post/19557042115937
[8] https://community.openai.com/t/will-deepseek-r1-force-openai-to-reduce-token-prices/1097716