Mengoptimalkan efisiensi memori dengan perhatian laten multi-head di Deepseek-V3

Peran apa yang dimainkan MLA yang halus dalam mengelola pertumbuhan memori di Deepseek-V3

Mekanisme Multi-Head Latent Attention (MLA) yang disempurnakan dalam Deepseek-V3 memainkan peran penting dalam mengelola pertumbuhan memori dengan secara signifikan mengurangi persyaratan memori selama proses inferensi model. Begini cara berkontribusi pada efisiensi memori:

1. Proyeksi Dinamis Low-Rank: MLA menyesuaikan kompresi vektor kunci/nilai berdasarkan panjang urutan. Untuk urutan yang lebih pendek, lebih sedikit kompresi diterapkan untuk menjaga kesetiaan, sedangkan untuk urutan yang lebih lama (hingga 128k token), kompresi yang lebih dalam digunakan untuk mengelola pertumbuhan memori. Pendekatan adaptif ini memastikan bahwa penggunaan memori tetap dapat dikelola bahkan dengan urutan input yang sangat panjang [2] [3].

2. Kompresi Kueri Adaptif: Tidak seperti Deepseek-V2, yang menggunakan dimensi tetap untuk kompresi kueri, Deepseek-V3 menggunakan penskalaan adaptif kueri pada kedalaman lapisan yang berbeda. Lapisan-lapisan awal menggunakan kueri dimensi yang lebih tinggi untuk ekspresi yang lebih baik, sementara lapisan yang lebih dalam lebih agresif mengompres kueri untuk menyimpan memori aktivasi. Strategi ini mengoptimalkan penggunaan memori dengan menyeimbangkan ekspresi dengan efisiensi [2] [3].

3. Penanganan tali yang lebih baik: Deepseek-V3 memperluas konsep kunci decoupling, yang sebagian diimplementasikan dalam V2. Dengan melacak "kunci bersama yang dipisahkan," model ini mengurangi penyimpangan numerik dalam generasi yang panjang, memastikan kinerja yang stabil di atas urutan yang diperluas [2].

4. Penyimpanan KV Joint: Tidak seperti V2, yang menyimpan tombol dan nilai terkompresi secara terpisah, V3 menggabungkannya menjadi representasi terkompresi bersama. Ini mengurangi lalu lintas memori selama inferensi multi-node, lebih meningkatkan efisiensi memori [2].

5. Cache Adaptif Layer-Wise: Alih-alih caching semua token masa lalu untuk semua lapisan, V3 memangkas entri KV yang lebih tua di lapisan yang lebih dalam. Ini membantu menjaga penggunaan memori dalam batas yang dapat dikelola saat berhadapan dengan jendela konteks besar [2].

Dengan menerapkan perbaikan ini, MLA secara signifikan mengurangi jejak memori Deepseek-V3, membuatnya mampu menangani urutan panjang secara efisien tanpa mengurangi kinerja. Ini dicapai dengan mengompresi pasangan nilai kunci menjadi vektor laten, yang mengurangi jumlah data yang perlu disimpan dan diproses, sehingga mempercepat inferensi dan meningkatkan kemampuan aplikasi real-time [3] [5] [8].

Kutipan:
[1] https://www.reddit.com/r/localllama/comments/1htwh4l/deepseekv3_is_insanely_popular_a_671b_models/
[2] https://martinfowler.com/articles/deepseek-papers.html
[3] https://mlnotes.substack.com/p/the-valleys-lay-crazy-how-deepseek
[4] https://machinelearningatscale.substack.com/p/deepseek-v3-model
[5] https://ai.plainenglish.io/deepseek-v3-how-they-achieved-big-sults-with-small-compute-fb694606d59a
[6] https://www.byteplus.com/en/topic/382517
[7] https://www.nextplatform.com/2025/01/27/how-did-deepseek-train-its-ai-model-on-a-lot-less-krippled-hardware/
[8] https://618media.com/en/blog/top-5-features-of-deepseek-v3-you-hould-now/