Kodėl API žetonų riba yra apribota iki 32K, nepaisant „Model“ 128K galimybių

Kokios yra pagrindinės API ribojimo iki 32K žetonų priežasčių, nepaisant to, kad modelis palaiko 128K

API apribojimas ne daugiau kaip 32 000 žetonų, nepaisant modelio galimybių palaikyti iki 128 000 žetonų, gali būti priskiriamas keliems pagrindiniams veiksniams:

1. Našumas ir stabilumas **

Apribojimas žetonų skaičiumi padeda išlaikyti API našumą ir stabilumą. Aukštesnės žetono ribos gali sukelti padidėjusius skaičiavimo poreikius, todėl didelio srauto laikotarpiais gali atsirasti lėčiau reagavimo laikas ir galimas nestabilumas. Apibendrindami 32K žetonų limitą, teikėjai gali užtikrinti nuoseklesnį našumą pagal skirtingus naudojimo scenarijus [1].

2. Vartotojo patirtis **

Mažesnė žetonų riba skatina vartotojus kurti glaustesnes ir sutelktas užklausas. Tai gali pagerinti bendrą sąveikos kokybę, skatinant aiškesnį vartotojų ir modelio ryšį. Kai vartotojai apsiriboja mažiau žetonų, jie labiau linkę įsitraukti į iteracinį dialogą, o ne pribloškia modelį pernelyg ilgais įėjimais [3].

3. Išteklių valdymas **

Veikimas pagal apibrėžtą žetonų limitą leidžia geresnį išteklių valdymą serverio pusėje. Kiekvienai užklausai reikalinga atminties ir apdorojimo galia, o ribojant žetonų naudojimą, paslaugų teikėjai gali optimizuoti savo infrastruktūrą, kad galėtų tvarkyti daugiau vienalaikių užklausų, nesumažėjus paslaugų kokybės [2].

4. Išlaidų sumetimai **

Didesnės žetonų ribos gali padidinti paslaugų teikėjų veiklos sąnaudas dėl didesnio išteklių sunaudojimo. Išlaikydami 32K limitą, teikėjai gali efektyviau valdyti išlaidas, tuo pačiu vis dar siūlydami patikimą paslaugą, tenkinančią daugumos vartotojų poreikius [6].

5. Techniniai apribojimai **

Taip pat gali būti techninių suvaržymų, susijusių su tuo, kaip modeliai yra diegti ar sukonfigūruoti konkrečioje aplinkoje. Pavyzdžiui, kai kurie įgyvendinimai gali nevisiškai palaikyti aukštesnes žetonų ribas dėl jų architektūros ar diegimo nustatymų apribojimų [4] [5].

Apibendrinant galima pasakyti, kad nors pats modelis turi didesnio konteksto lango potencialą, praktiniai aspektai, susiję su našumu, vartotojo patirtimi, išteklių valdymu, sąnaudomis ir techniniais apribojimais, lemia sprendimą apriboti API iki 32K žetonų.

Citatos:
[1] https://www.linkedin.com/pulse/gpt-4-continues-lead-googles-32k-models-meet-match-koken-ankit-pareek
[2] https://learn.microsoft.com/en-au/answers/questions/2121835/gpt-4o-has-a-a-35k-input-tyken-limit
[3] https://devblogs.microsoft.com/surface-guo/android-openai-chatgpt-15/
[4] https://learn.microsoft.com/en-us/answers/questions/2116223/azure-openai-token-limit-issue
[5] https://community.zapier.com/troubleshooting-99/chatgpt-error-400-max-token-isty-large-32768-This-Model-Supports-AT-I-4096-Compleemy-Tokens -39804
[6] https://themeisle.com/blog/chatgpt-api-cost/
[7] https://community.openai.com/t/anyone-can-explain-me-why-i-cannot-set-max-tooke-to-32k/951948
[8] https://www.reddit.com/r/openai/comments/1h7jm52/one_thing_that_openai_shouldve_highlight_more/
[9] https://github.com/danny-avila/librechat/discussions/1077
[10] https://www.googlecloudcommunity.com/gc/ai-ml/gemini-1-0-pro-tekon-count-32k/m-p/719426