Kāpēc API marķiera limits ir ierobežots līdz 32k, neskatoties uz Model 128K spēju

Kādi ir galvenie API ierobežošanas iemesli līdz 32k žetoniem, neskatoties uz modeli, kas atbalsta 128K

API ierobežojums līdz maksimāli 32 000 žetonu, neskatoties uz modeļa spēju atbalstīt līdz 128 000 žetoniem, var attiecināt uz vairākiem galvenajiem faktoriem:

1. Veiktspēja un stabilitāte **

Žetonu skaita ierobežošana palīdz saglabāt API veiktspēju un stabilitāti. Augstākas žetonu robežas var palielināt skaitļošanas prasības, kas var izraisīt lēnāku reakcijas laiku un potenciālu nestabilitāti augstas satiksmes periodos. Apturot marķiera robežu 32K, pakalpojumu sniedzēji var nodrošināt konsekventāku sniegumu dažādos lietošanas scenārijos [1].

2. Lietotāja pieredze **

Zemāks marķiera ierobežojums mudina lietotājus izveidot kodolīgākus un mērķtiecīgākus vaicājumus. Tas var uzlabot vispārējo mijiedarbības kvalitāti, veicinot skaidrāku saziņu starp lietotājiem un modeli. Ja lietotājiem ir ierobežots mazāk žetonu, viņi, visticamāk, iesaistīsies iteratīvā dialogā, nevis pārspīlē modeli ar pārāk ilgstošām ieejām [3].

3. Resursu pārvaldība **

Darbība noteiktā marķiera ierobežojumā ļauj labāk pārvaldīt resursus servera pusē. Katram pieprasījumam nepieciešama atmiņa un apstrādes jauda, un, ierobežojot marķiera izmantošanu, pakalpojumu sniedzēji var optimizēt savu infrastruktūru, lai apstrādātu vairāk vienlaicīgus pieprasījumus, nenovirzot pakalpojumu kvalitāti [2].

4. Izmaksu apsvērumi **

Augstākas žetonu robežas var palielināt pakalpojumu sniedzēju darbības izmaksas lielāka resursu patēriņa dēļ. Saglabājot 32K ierobežojumu, pakalpojumu sniedzēji var efektīvāk pārvaldīt izmaksas, vienlaikus piedāvājot stabilu pakalpojumu, kas atbilst vairuma lietotāju vajadzībām [6].

5. Tehniskie ierobežojumi **

Var būt arī tehniski ierobežojumi, kas saistīti ar to, kā modeļi tiek izvietoti vai konfigurēti noteiktā vidē. Piemēram, dažas ieviešanas varētu pilnībā neatbalstīt augstākas marķieru ierobežojumus, pateicoties to arhitektūras vai izvietošanas iestatījumu ierobežojumiem [4] [5].

Rezumējot, kaut arī pašam modelim ir plašāks konteksta loga potenciāls, praktiski apsvērumi attiecībā uz veiktspēju, lietotāju pieredzi, resursu pārvaldību, izmaksām un tehniskajiem ierobežojumiem veicina lēmumu ierobežot API līdz 32K žetoniem.

Atsauces:
[1.]
[2] https://learn.microsoft.com/en-au/answers/questions/2121835/gpt-4o-has-a-35k-input-token-limit
[3] https://devblogs.microsoft.com/surface-duo/android-openai-chatgpt-15/
[4] https://learn.microsoft.com/en-us/answers/questions/2116223/azure-openai-token-limit-issue
. -39804
[6] https://themisle.com/blog/chatgpt-api-cost/
.
[8] https://www.reddit.com/r/openai/comments/1h7jm52/one_thing_that_openai_shouldve_highlighted_more/
[9] https://github.com/danny-avila/librechat/discussions/1077
[10] https://www.googlecloudcommunity.com/gc/ai-ml/gemini-1-0-pro-tekon-count-32k/m-p/719426