Gatagem sigmóide e atenção latente de várias cabeças em Deepseek-V3

Você pode explicar como o bloqueio sigmóide interage com a arquitetura MLA em Deepseek-V3

Para entender como o bloqueio sigmóide interage com a arquitetura de atenção latente de várias cabeças (MLA) em Deepseek-V3, vamos quebrar os dois componentes e seus papéis no modelo.

Atenção latente de vários cabeços (MLA)

** O MLA é um componente essencial do Deepseek-V3, projetado para otimizar o mecanismo de atenção nos modelos baseados em transformadores. Ao contrário da atenção tradicional de várias cabeças, o MLA usa uma compressão da junta de baixo rank para chaves e valores de atenção. Essa compactação reduz a dimensionalidade das vetores da consulta (q), chave (k) e valor (v) antes de entrar no mecanismo de atenção. Por exemplo, se a entrada tiver uma forma de (comprimento da sequência Ã 2000), o MLA poderá reduzir os vetores Q, K e V para uma forma de (comprimento da sequência ã 100). Essa redução minimiza significativamente o cache do valor-chave (KV) durante a inferência, levando a tempos de processamento mais rápidos sem sacrificar o desempenho [5] [9].

sigmoid gating no Deepseek-V3

No contexto do Deepseek-V3, o bloqueio sigmóide é usado em conjunto com a estrutura da mistura de especialistas (MOE). A estrutura MOE divide a grande rede neural em sub-redes especializadas chamadas "especialistas". Para cada entrada, apenas um subconjunto desses especialistas é ativado. O bloqueio sigmóide é aplicado ao mecanismo de roteamento que decide quais especialistas ativarem.

Interação

com MLA

Enquanto o MLA está focado principalmente em otimizar o processo de atenção, o Sigmoid Gating desempenha um papel na estrutura MOE, que é um componente separado, mas complementar do Deepseek-V3. A estrutura MOE usa o bloqueio sigmóide para gerenciar como os tokens são roteados para diferentes especialistas. Diferentemente do bloqueio tradicional de max softmax, o que pode levar a casos extremos em que certos especialistas são favorecidos em relação a outros, o bloqueio sigmóide ajuda a manter uma distribuição mais equilibrada de tokens entre os especialistas. Esse equilíbrio é crucial para impedir o colapso do roteamento, onde o modelo pode reverter para se comportar como um modelo denso, perdendo os benefícios de eficiência da arquitetura MOE [5].

ajuste de viés dinâmico

O Deepseek-V3 introduz ajustes dinâmicos de viés para garantir o balanceamento de carga entre os especialistas. Os termos de viés são adicionados às pontuações de afinidade de especialistas antes de tomar decisões de roteamento. Esses vieses são ajustados dinamicamente durante o treinamento: se um especialista estiver sobrecarregado, seu viés será reduzido e, se for submarcado, seu viés será aumentado. Esse mecanismo garante que a carga permaneça equilibrada sem depender das funções de perda auxiliar, o que pode afetar negativamente o desempenho do modelo [5].

Em resumo, enquanto o MLA otimiza o mecanismo de atenção para uma inferência mais rápida, o bloqueio sigmóide na estrutura MOE ajuda a gerenciar o roteamento de tokens para especialistas, garantindo a utilização eficiente e equilibrada dos recursos computacionais. Essa combinação aprimora o desempenho geral e a eficiência do Deepseek-V3.

Citações:
[1] https://fireworks.ai/blog/deepseek-model-architecture
[2] https://huggingface.co/deepseek-ai/deepseek-v3
[3] https://arxiv.org/abs/1609.07160
[4] https://618media.com/en/blog/technical-architecture-of-deepseek-v3-explined/
[5] https://machinelearningatscale.substack.com/p/deepseek-v3-model
[6] https://www.reddit.com/r/localllama/comments/1i4em80/interesting_article_on_how_deepseek_has_improved/
[7] https://en.wikipedia.org/wiki/transformer_(deep_learning_architecture)
[8] https://ai.gopubby.com/deepseek-v3-expling-2-deepseekmoe-106cffcc56c1
[9] https://pub.towardsai.net/deepseek-r1-model-architecture-853fefac7050