Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon Wie handelt es sich bei Deepseek um große Token-Anfragen?


Wie handelt es sich bei Deepseek um große Token-Anfragen?


Deepseek, ein schnell wachsendes chinesisches KI-Startup, wendet mehrere Strategien an, um groß angelegte Token-Anfragen effektiv zu verwalten, insbesondere durch sein jüngstes Modell Deepseek-V3. In diesem Modell wird eine MEE-OF-Experten-Architektur (Experten) verwendet, mit der es für jeden verarbeiteten Token selektiv eine Teilmenge von Parametern aktiviert. Insbesondere hat Deepseek-V3 insgesamt 671 Milliarden Parameter, aber für jeden Token werden nur 37 Milliarden während der Inferenz aktiviert. Dieses Design verbessert die Recheneffizienz im Vergleich zu herkömmlichen dichten Modellen erheblich, wobei alle Parameter für jede Anfrage eingesetzt werden [1] [4].

Um die Leistung weiter zu optimieren, implementiert Deepseek-V3 eine effektive Strategie für die Lastausgleich während ihrer Trainings- und Inferenzprozesse. Dieser Ansatz stellt sicher, dass in einer der beiden Phasen keine Token fallen gelassen werden. Das Modell behält ein gutes Lastbilanz bei, indem ein eingeschränkter Routing-Mechanismus verwendet wird, der die Kommunikationskosten einschränkt und eine nahezu vollständige Überlappung der Berechnungskommunikation ermöglicht. Infolgedessen kann Deepseek-V3 hohe Mengen an Token-Anfragen bewältigen, ohne die Leistung oder Zuverlässigkeit zu beeinträchtigen [2] [4].

In Bezug auf das Training ist Deepseek-V3 in einem umfangreichen Datensatz mit 14,8 Billionen Token vorgebracht, gefolgt von Stadien der beaufsichtigten Feinabstimmung und Verstärkungslernen, um seine Fähigkeiten zu verfeinern. Der Schulungsprozess ist stabil und effizient ausgestattet und beendet in weniger als zwei Monaten mit einer Gesamtkosten von ca. 5,576 Mio. USD an GPU -Stunden [1] [2]. Diese effiziente Nutzung von Ressourcen ermöglicht es Deepseek, effektiv zu skalieren, während große Token-Anfragen in seinen Diensten verwaltet werden.

Insgesamt ermöglichen die innovative Architektur und die strategischen Ansätze von Deepseek es, um erhebliche Token -Anfragen effizient zu bewältigen, was es zu einem Wettbewerbsspieler in der KI -Landschaft macht.

Zitate:
[1] https://thehackernews.com/2025/01/top-rated-chinese-ai-app-peepseek.html
[2] https://arxiv.org/html/2412.19437v1
[3] https://protos.com/chinese-openai-rival-yepseek-limits-signupups-after-large-scale-attack/
[4] https://encord.com/blog/deepseek-ai/
[5] https://www.techtarget.com/whatis/feature/deepseek-explained-you-need-to- Know
[6] https://www.reddit.com/r/localllama/comments/1hzkw3f/deepseek_v3_is_the_gift_that_keeps_on_giving/
[7] https://www.cnbc.com/2025/01/27/deepseek-hit-with-large-scale-cyberattack-say-it-limiting-registrations.html
[8] https://daily.dev/blog/deepseek-ething-you-need-to-know-about-this-new-llm-in-one-place