최대 128,000 개의 토큰을 지원할 수있는 모델의 기능에도 불구하고 API를 최대 32,000 개의 토큰으로 제한하는 것은 몇 가지 주요 요인에 기인 할 수 있습니다.
1. 성능과 안정성 **
토큰 수를 제한하면 API의 성능과 안정성을 유지하는 데 도움이됩니다. 토큰 한도가 높을수록 계산 수요가 증가 할 수 있으며, 이로 인해 교통량이 많은 동안 응답 시간이 느려지고 잠재적 불안정이 발생할 수 있습니다. 토큰 제한을 32K로 캡핑함으로써 제공자는 다양한 사용 시나리오에서보다 일관된 성능을 보장 할 수 있습니다 [1].2. 사용자 경험 **
더 낮은 토큰 한도는 사용자가 더 간결하고 집중된 쿼리를 만들도록 권장합니다. 이는 사용자와 모델 간의 더 명확한 커뮤니케이션을 촉진하여 전반적인 상호 작용 품질을 향상시킬 수 있습니다. 사용자가 토큰이 적은 것으로 제한되면, 모델을 지나치게 긴 입력으로 압도하는 대신 반복 대화에 참여할 가능성이 더 높습니다 [3].3. 자원 관리 **
정의 된 토큰 한도 내에서 작동하면 서버 측에서 더 나은 리소스 관리가 가능합니다. 각 요청에는 메모리 및 처리 능력이 필요하며 토큰 사용을 제한함으로써 서비스 제공 업체는 서비스 품질을 저하시키지 않으면 서보다 동시 요청을 처리하기 위해 인프라를 최적화 할 수 있습니다 [2].4. 비용 고려 사항 **
토큰 한도가 높을수록 자원 소비가 증가함에 따라 서비스 제공 업체의 운영 비용이 증가 할 수 있습니다. 제공 업체는 32K 한도를 유지함으로써 비용을보다 효과적으로 관리하면서 대부분의 사용자의 요구를 충족시키는 강력한 서비스를 제공 할 수 있습니다 [6].5. 기술적 제약 **
특정 환경에서 모델을 배포하거나 구성하는 방법과 관련된 기술적 제약이있을 수 있습니다. 예를 들어, 일부 구현은 아키텍처 또는 배포 설정의 한계로 인해 더 높은 토큰 제한을 완전히 지원하지 않을 수 있습니다 [4] [5].요약하면, 모델 자체는 더 큰 컨텍스트 창에 대한 잠재력을 가지고 있지만 성능, 사용자 경험, 리소스 관리, 비용 및 기술적 제약 조건에 관한 실질적인 고려 사항은 API를 32k 토큰으로 제한하기로 결정한 결정을 이끌어냅니다.
인용 :[1] https://www.linkedin.com/pulse/gpt-4-continues-lead-googles-32k-models-meet-match-token-ankit-pareek
[2] https://learn.microsoft.com/en-au/answers/questions/2121835/gpt-4o--a-35k- 입력-kon-limit
[3] https://devblogs.microsoft.com/surface-duo/android-openai-chatgpt-15/
[4] https://learn.microsoft.com/en-us/answers/questions/2116223/azure-openai-token-limit-issue
[5] https://community.zapier.com/troubleShooting-99/chatgpt-error-400-max-token-is-large-32768-이 model-supports-at-most-4096-completion-tokens -39804
[6] https://themeisle.com/blog/chatgpt-api-cost/
[7] https://community.openai.com/t/anyone-can-explain-me-why-i-cannot-max-token-to-32k/951948
[8] https://www.reddit.com/r/openai/comments/1h7jm52/one_thing_that_openai_shouldve_highlighted_more/
[9] https://github.com/danny-avila/librechat/discussions/1077
[10] https://www.googlecloudcommunity.com/gc/ai-ml/gemini-1-pro-ton-not-not-32k/m-p/719426