Care sunt principalele motive pentru restricționarea API -ului la 32K jetoane, în ciuda modelului care susține 128K

Restricția API la maximum 32.000 de jetoane, în ciuda capacității modelului de a susține până la 128.000 de jetoane, poate fi atribuită mai multor factori cheie:

1. Performanță și stabilitate **

Limitarea numărului de jetoane ajută la menținerea performanței și stabilității API -ului. Limitele mai mari de jetoane pot duce la creșterea cerințelor de calcul, ceea ce poate duce la timp de răspuns mai lent și la o potențială instabilitate în perioadele cu trafic ridicat. Prin limitarea limitei jetonului la 32K, furnizorii pot asigura performanțe mai consistente în diferite scenarii de utilizare [1].

2. Experiența utilizatorului **

O limită mai mică de jetoane încurajează utilizatorii să creeze întrebări mai concise și concentrate. Acest lucru poate îmbunătăți calitatea interacțiunii generale prin promovarea unei comunicări mai clare între utilizatori și model. Atunci când utilizatorii sunt limitați la mai puține jetoane, aceștia au mai multe șanse să se angajeze în dialog iterativ, mai degrabă decât să copleșească modelul cu intrări excesiv de lungi [3].

3. Managementul resurselor **

Operarea într -o limită de jeton definită permite o mai bună gestionare a resurselor pe partea serverului. Fiecare cerere necesită putere de memorie și procesare și, prin restricționarea utilizării jetonului, furnizorii de servicii își pot optimiza infrastructura pentru a gestiona mai multe solicitări simultane fără a degrada calitatea serviciului [2].

4. Considerații privind costurile **

Limitele mai mari de jetoane pot duce la creșterea costurilor operaționale pentru furnizorii de servicii din cauza consumului de resurse mai mare. Prin menținerea unei limite de 32k, furnizorii pot gestiona costurile mai eficient, oferind în același timp un serviciu robust care să răspundă nevoilor majorității utilizatorilor [6].

5. Constrângeri tehnice **

De asemenea, pot exista constrângeri tehnice legate de modul în care modelele sunt implementate sau configurate în medii specifice. De exemplu, este posibil ca unele implementări să nu susțină pe deplin limitele de jeton mai mari din cauza limitărilor din arhitectura sau setările lor de implementare [4] [5].

În rezumat, în timp ce modelul în sine are potențialul pentru o fereastră de context mai mare, considerente practice în ceea ce privește performanța, experiența utilizatorului, gestionarea resurselor, costurile și constrângerile tehnice determină decizia de a restricționa API -ul la 32K jetoane.

Citări:
[1] https://www.linkedin.com/pulse/gpt-4-continues-lead-googles-32k-models-meet-petch-token-ankit-paraek
[2] https://learn.microsoft.com/en-au/answers/questions/2121835/gpt-4o-has-a-35k-input-token-limit
[3] https://devblogs.microsoft.com/surface-duo/android-openai-chatgpt-15/
[4] https://learn.microsoft.com/en-us/answers/questions/2116223/azure-openai-token-limit-issue
[5] https://community.zapier.com/troublehooting-99/chatgpt-error-400-max-token-is-too-lo-large-32768--asta-model-supports-at-most-4096-COMPLETION-TOKENS -39804
[6] https://themeisle.com/blog/chatgpt-api-cost/
[7] https://community.openai.com/t/anyone-can-explain-me-why-i-cananot-set-max-token-to-32k/951948
[8] https://www.reddit.com/r/openai/comments/1h7jm52/one_thing_that_openai_shouldve_highlight_more/
[9] https://github.com/danny-avila/librechat/discussions/1077
[10] https://www.googlecloudcommunity.com/gc/ai-ml/gemini-1-0-pro-tekon-count-not-32k/m-p/719426