Tại sao giới hạn mã thông báo API bị giới hạn ở 32K mặc dù khả năng 128k của Model

Những lý do chính để hạn chế API là 32k mã thông báo mặc dù mô hình hỗ trợ 128k

Hạn chế của API ở mức tối đa là 32.000 mã thông báo, mặc dù khả năng của mô hình hỗ trợ tới 128.000 mã thông báo, có thể được quy cho một số yếu tố chính:

1. Hiệu suất và sự ổn định **

Giới hạn số lượng mã thông báo giúp duy trì hiệu suất và tính ổn định của API. Giới hạn mã thông báo cao hơn có thể dẫn đến tăng nhu cầu tính toán, điều này có thể dẫn đến thời gian đáp ứng chậm hơn và sự mất ổn định tiềm năng trong thời gian giao thông cao. Bằng cách giới hạn giới hạn mã thông báo ở mức 32K, các nhà cung cấp có thể đảm bảo hiệu suất nhất quán hơn trong các kịch bản sử dụng khác nhau [1].

2. Trải nghiệm người dùng **

Giới hạn mã thông báo thấp hơn khuyến khích người dùng tạo ra các truy vấn ngắn gọn và tập trung hơn. Điều này có thể nâng cao chất lượng tương tác tổng thể bằng cách thúc đẩy giao tiếp rõ ràng hơn giữa người dùng và mô hình. Khi người dùng bị giới hạn ở ít mã thông báo hơn, họ có nhiều khả năng tham gia vào cuộc đối thoại lặp hơn là áp đảo mô hình với các đầu vào dài quá mức [3].

3. Quản lý tài nguyên **

Hoạt động trong giới hạn mã thông báo được xác định cho phép quản lý tài nguyên tốt hơn ở phía máy chủ. Mỗi yêu cầu yêu cầu bộ nhớ và sức mạnh xử lý và bằng cách hạn chế sử dụng mã thông báo, các nhà cung cấp dịch vụ có thể tối ưu hóa cơ sở hạ tầng của họ để xử lý các yêu cầu đồng thời hơn mà không làm giảm chất lượng dịch vụ [2].

4. Cân nhắc chi phí **

Giới hạn mã thông báo cao hơn có thể dẫn đến tăng chi phí hoạt động cho các nhà cung cấp dịch vụ do mức tiêu thụ tài nguyên lớn hơn. Bằng cách duy trì giới hạn 32K, các nhà cung cấp có thể quản lý chi phí hiệu quả hơn trong khi vẫn cung cấp dịch vụ mạnh mẽ đáp ứng nhu cầu của hầu hết người dùng [6].

5. Hạn chế kỹ thuật **

Cũng có thể có những ràng buộc kỹ thuật liên quan đến cách các mô hình được triển khai hoặc cấu hình trong các môi trường cụ thể. Chẳng hạn, một số triển khai có thể không hỗ trợ đầy đủ các giới hạn mã thông báo cao hơn do các giới hạn trong cài đặt kiến trúc hoặc triển khai của chúng [4] [5].

Tóm lại, trong khi bản thân mô hình có tiềm năng cho một cửa sổ bối cảnh lớn hơn, những cân nhắc thực tế liên quan đến hiệu suất, trải nghiệm người dùng, quản lý tài nguyên, chi phí và các ràng buộc kỹ thuật thúc đẩy quyết định hạn chế API thành mã thông báo 32K.

Trích dẫn:
[1] https://www.linkedin.com/pulse/gpt-4-continues-lead-googles-32k-models-meet-match-token-ankit-pareek
[2] https://learn.microsoft.com/en-au/answers/questions/2121835/gpt-4o-has-a-35k-input-token-limit
.
[4] https://learn.microsoft.com/en-us/answers/questions/2116223/azure-openai-token-limit-issue
[5] https://community.zapier.com/troubleshooting-99/chatgpt-error-400-max-token-is-too-large-32768-this-model-supports-at-most-4096-completion-tokens -39804
[6] https://themeisle.com/blog/chatgpt-api-cost/
[7] https://community.openai.com/t/anyone-can-explain-me-why-i-cannot-set-max-token-to-32k/951948
.
[9] https://github.com/danny-avila/librechat/discussions/1077
[10] https://www.googlecloudcommunity.com/gc/AI-ML/Gemini-1-0-Pro-tekon-count-not-32K/m-p/719426