Pembatasan API hingga maksimum 32.000 token, meskipun kemampuan model untuk mendukung hingga 128.000 token, dapat dikaitkan dengan beberapa faktor kunci:
1. Kinerja dan stabilitas **
Membatasi jumlah token membantu menjaga kinerja dan stabilitas API. Batas token yang lebih tinggi dapat menyebabkan peningkatan tuntutan komputasi, yang dapat mengakibatkan waktu respons yang lebih lambat dan potensi ketidakstabilan selama periode lalu lintas tinggi. Dengan membatasi batas token pada 32K, penyedia dapat memastikan kinerja yang lebih konsisten di berbagai skenario penggunaan [1].2. Pengalaman pengguna **
Batas token yang lebih rendah mendorong pengguna untuk membuat pertanyaan yang lebih ringkas dan terfokus. Ini dapat meningkatkan kualitas interaksi keseluruhan dengan mempromosikan komunikasi yang lebih jelas antara pengguna dan model. Ketika pengguna terbatas pada token yang lebih sedikit, mereka lebih cenderung terlibat dalam dialog berulang daripada membanjiri model dengan input yang terlalu panjang [3].3. Manajemen Sumber Daya **
Beroperasi dalam batas token yang ditentukan memungkinkan manajemen sumber daya yang lebih baik di sisi server. Setiap permintaan membutuhkan daya memori dan pemrosesan, dan dengan membatasi penggunaan token, penyedia layanan dapat mengoptimalkan infrastruktur mereka untuk menangani permintaan yang lebih simultan tanpa menurunkan kualitas layanan [2].4. Pertimbangan Biaya **
Batas token yang lebih tinggi dapat menyebabkan peningkatan biaya operasional untuk penyedia layanan karena konsumsi sumber daya yang lebih besar. Dengan mempertahankan batas 32K, penyedia dapat mengelola biaya secara lebih efektif sambil tetap menawarkan layanan yang kuat yang memenuhi kebutuhan sebagian besar pengguna [6].5. Kendala teknis **
Mungkin juga ada kendala teknis yang terkait dengan bagaimana model digunakan atau dikonfigurasi di lingkungan tertentu. Misalnya, beberapa implementasi mungkin tidak sepenuhnya mendukung batas token yang lebih tinggi karena keterbatasan dalam pengaturan arsitektur atau penyebaran mereka [4] [5].Singkatnya, sementara model itu sendiri memiliki potensi untuk jendela konteks yang lebih besar, pertimbangan praktis mengenai kinerja, pengalaman pengguna, manajemen sumber daya, biaya, dan kendala teknis mendorong keputusan untuk membatasi API hingga 32K token.
Kutipan:[1] https://www.linkedin.com/pulse/gpt-4-continues-lead-google-32k-models-meet-batch-token-ankit-kareek
[2] https://learn.microsoft.com/en-au/answers/questions/2121835/gpt-4o-has-a-35k-cut-put-token-limit
[3] https://devblogs.microsoft.com/surface-duo/android-openai-catgpt-15/
[4] https://learn.microsoft.com/en-us/answers/questions/2116223/azure-openai-token-limit-issue
[5] https://community.zapier.com/troubleshooting-99/chatgpt-error-400-max-token-is-too-grarge-32768- ini-model-dukungan-at-most-4096-keletulan-tokens -39804
[6] https://themeisle.com/blog/chatgpt-api-cost/
[7] https://community.openai.com/t/anyone-can-explain-me-why-i-cannot-set-max-token-to-32k/951948
[8] https://www.reddit.com/r/openai/comments/1h7jm52/one_thing_that_openai_shouldve_highlighted_more/
[9] https://github.com/danny-avila/librechat/discussions/1077
[10] https://www.googlecloudcommunity.com/gc/ai-ml/gemini-1-0-pro-tekon-count-not-32k/m-p/719426