4 bitų kiekio poveikis „Deepseek“ modeliams: našumo ir išteklių efektyvumas

Kaip 4 bitų kiekybinis poveikis veikia „Deepseeek“ modelių veikimą

4 bitų kiekybinis nustatymas daro didelę įtaką „Deepseee“ modelių našumui ir efektyvumui, ypač atsižvelgiant į išteklių reikalavimus ir modelio tikslumą.

Našumas ir tikslumas

Nepaisant to, kad sumažėjo tikslumas nuo viso tikslumo svorio iki 4 bitų kiekybinio nustatymo, tokie modeliai, tokie kaip „Codefuse-Deepseek-33B-4BITS“, parodė įspūdingą našumo metriką. Šis modelis pasiekia 78,05% tikslumą su humanevalais@1 metrika, tai rodo, kad jis palaiko aukštą funkcionalumo lygį net ir po kiekybinio nustatymo [1]. Be to, kitų modelių testai parodė, kad 4 bitų kiekybinis nustatymas gali suteikti beveik identišką tikslumą jų nekantizuotiems kolegoms, o tai rodo, kad modelio dydžio ir našumo kompromisas yra palankus [3].

Šaltinių efektyvumas

Vienas ryškiausių 4 bitų kiekybinio įvertinimo pranašumų yra jo sugebėjimas drastiškai sumažinti atminties naudojimą. Pavyzdžiui, modeliai, kuriems paprastai reikalingas didelis VRAM, gali veikti su žymiai mažesniais reikalavimais kiekybiškai. Pavyzdžiui, modeliui, kurio parametrai 7 milijardai parametrų, gali prireikti tik apie 4 GB VRAM, palyginti su 16 GB, kad būtų visiškai tikslumas [9]. Šis sumažinimas daro didelių kalbos modelių diegimą labiau įmanomus standartines aparatinės įrangos sąrankas be specialių GPU.

Poveikis išvadų greičiui

Nors 4 bitų kiekybinis įvertinimas padidina prieinamumą ir sumažina atminties pridėtines išlaidas, jis taip pat gali paveikti išvadų greitį. Kai kurie tyrimai rodo, kad nors 4 bitų modeliai yra veiksmingi, jie gali ne visada pralenkti aukštesnio tikslumo modelius greičio atžvilgiu dėl galimų su kvantizavimu susijusių latentinių problemų [5]. Tačiau efektyvumas, padidėjęs dėl sumažėjusio modelio dydžio, dažnai kompensuoja bet kokį nedidelį sulėtėjimą.

Išvada

Apibendrinant galima pasakyti, kad 4 bitų kiekybinis nustatymas efektyviai subalansuoja našumą ir išteklių efektyvumą „Deepseeek“ modeliuose. Tai leidžia pasiekti aukštą tikslumą, tuo pačiu žymiai sumažinant atminties reikalavimus, todėl pažangiosios AI galimybės yra prieinamos vartotojams, turintiems ribotus skaičiavimo išteklius. Toliau tobulėjant tyrimams šioje srityje, tolesnis kvantizavimo metodų optimizavimas gali dar labiau sustiprinti šią naudą.

Citatos:
[1] https://huggingface.co/codefuse-ai/codefuse-deepseek-33b-4bits
[2] https://openreview.net/pdf/7b737ad24c25f970425a5b16afeea99b9bc4e692.pdf
[3] https://www.reddit.com/r/localllama/comments/1h0aev6/losless_4bit_quantization_for_large_models_are/
[4] https://arxiv.org/html/2410.1476661
[5] https://github.com/deepseek-ai/deepseek-vl/issues/28
[6] http://arxiv.org/pdf/2410.14766.pdf
[7] https://www.theregister.com/2025/01/26/deepseek_r1_ai_cot/
[8] https://news.ycombinator.com/item?id=35143418
[9] https://apxml.com/posts/system-requirements-deepseek-models