Por qué el límite del token API está restringido a 32k a pesar de la capacidad de 128k del modelo

¿Cuáles son las principales razones para restringir la API a 32k tokens a pesar del modelo que respalda 128K

La restricción de la API a un máximo de 32,000 tokens, a pesar de la capacidad del modelo de admitir hasta 128,000 tokens, puede atribuirse a varios factores clave:

1. rendimiento y estabilidad **

Limitar el recuento de tokens ayuda a mantener el rendimiento y la estabilidad de la API. Los límites de token más altos pueden conducir a mayores demandas computacionales, lo que puede dar lugar a tiempos de respuesta más lentos y una inestabilidad potencial durante los períodos de alto tráfico. Al limitar el límite del token en 32k, los proveedores pueden garantizar un rendimiento más consistente en diferentes escenarios de uso [1].

2. Experiencia del usuario **

Un límite de token inferior alienta a los usuarios a crear consultas más concisas y enfocadas. Esto puede mejorar la calidad de interacción general al promover una comunicación más clara entre los usuarios y el modelo. Cuando los usuarios se limitan a menos tokens, es más probable que participen en el diálogo iterativo en lugar de abrumar al modelo con entradas excesivamente largas [3].

3. Gestión de recursos **

Operar dentro de un límite de token definido permite una mejor gestión de recursos en el lado del servidor. Cada solicitud requiere memoria y potencia de procesamiento, y al restringir el uso del token, los proveedores de servicios pueden optimizar su infraestructura para manejar solicitudes más simultáneas sin degradar la calidad del servicio [2].

4. Consideraciones de costos **

Los límites de token más altos pueden conducir a mayores costos operativos para los proveedores de servicios debido a un mayor consumo de recursos. Al mantener un límite de 32k, los proveedores pueden administrar los costos de manera más efectiva al tiempo que ofrecen un servicio robusto que satisfaga las necesidades de la mayoría de los usuarios [6].

5. Restricciones técnicas **

También puede haber restricciones técnicas relacionadas con cómo se implementan o configuran los modelos en entornos específicos. Por ejemplo, algunas implementaciones podrían no admitir completamente los límites de token más altos debido a las limitaciones en su arquitectura o configuración de implementación [4] [5].

En resumen, mientras que el modelo en sí tiene el potencial de una ventana de contexto más amplia, consideraciones prácticas con respecto al rendimiento, la experiencia del usuario, la gestión de recursos, el costo y las limitaciones técnicas impulsan la decisión de restringir la API a 32k tokens.

Citas:
[1] https://www.linkedin.com/pulse/gpt-4-continues-lead-googles-32k-models-met-match-token-ankit-pareek
[2] https://learn.microsoft.com/en-au/answers/questions/2121835/gpt-4o-has-a-35k-input-toking-limit
[3] https://devblogs.microsoft.com/surface-duo/android-openai-chatgpt-15/
[4] https://learn.microsoft.com/en-us/answers/questions/2116223/azure-openai-token-limit-isement
[5] https://community.zapier.com/troublashooting-99/chatgpt-error-400-max-token-is-too-large-32768-this-model-supports-at-most-4096-tompletion-tokens -39804
[6] https://themeisle.com/blog/chatgpt-api-cost/
[7] https://community.openai.com/t/anyone-can-explain-me-why-i-cannot-set-max-token-to-32k/951948
[8] https://www.reddit.com/r/openai/comments/1h7jm52/one_thing_that_openai_shouldve_highlighted_more/
[9] https://github.com/danny-avila/librechat/discussions/1077
[10] https://www.googlecloudcommunity.com/gc/ai-ml/gemini-1-0-protekon-count-not-32k/m-p/719426