| Proč je limit tokenu API omezen na 32K i přes kapacitu 128k modelu

Jaké jsou hlavní důvody pro omezení API na 32k tokeny, přestože model podporuje 128K

| Omezení API na maximálně 32 000 tokenů, navzdory schopnosti modelu podporovat až 128 000 tokenů, lze připsat několika klíčovým faktorům:

1. výkon a stabilita **

Omezení počtu tokenů pomáhá udržovat výkon a stabilitu API. Vyšší limity tokenu mohou vést ke zvýšeným výpočetním požadavkům, což může mít za následek pomalejší doba odezvy a potenciální nestabilitu během období s vysokým provozem. Omezením limitu tokenu na 32K mohou poskytovatelé zajistit konzistentnější výkon v různých scénářích použití [1].

2.. Uživatelská zkušenost **

Nižší limit tokenu povzbuzuje uživatele, aby vytvořili stručnější a soustředěnější dotazy. To může zvýšit celkovou kvalitu interakce podporou jasnější komunikace mezi uživateli a modelem. Pokud jsou uživatelé omezeni na méně žetonů, je pravděpodobnější, že se zapojí do iterativního dialogu, spíše než překonají model s příliš dlouhými vstupy [3].

3. správa zdrojů **

Provozování v rámci definovaného limitu tokenů umožňuje lepší správu zdrojů na straně serveru. Každá žádost vyžaduje paměť a sílu zpracování a omezením využití tokenů mohou poskytovatelé služeb optimalizovat svou infrastrukturu tak, aby zvládli více současných požadavků bez zhoršení kvality služeb [2].

4. Úvahy o nákladech **

Vyšší limity tokenu mohou vést ke zvýšeným provozním nákladům pro poskytovatele služeb v důsledku větší spotřeby zdrojů. Udržováním limitu 32K mohou poskytovatelé spravovat náklady efektivněji a přitom nabízet robustní službu, která vyhovuje potřebám většiny uživatelů [6].

5. Technická omezení **

Mohou také existovat technická omezení související s tím, jak jsou modely nasazovány nebo nakonfigurovány v konkrétních prostředích. Například některé implementace nemusí plně podporovat vyšší limity tokenů kvůli omezením jejich architektury nebo nastavení nasazení [4] [5].

Stručně řečeno, zatímco samotný model má potenciál pro větší kontextové okno, praktické úvahy týkající se výkonu, uživatelských zkušeností, správy zdrojů, nákladů a technických omezení řídí rozhodnutí omezit API na 32K tokeny.

Citace:
[1] https://www.linkedin.com/pulse/gpt-4-continues-lead-googles-32K-Models-Match-Token-Ankit-Pareek
[2] https://learn.microsoft.com/en-au/answers/questions/2121835/gpt-has-a-35k-input-token-limit
[3] https://devblogs.microsoft.com/surface-duo/android-openai-catgpt-15/
[4] https://learn.microsoft.com/en-us/answers/questions/2116223/azure-openai-token-limit-issue
[5] https://community.zapier.com/troubleshooting-99/chatgpt-error-400-max-token-is-too-large-32768-This-Model-supports-tmost-4096-Completion-Tokens -39804
[6] https://themeisle.com/blog/chatgpt-api-cost/
[7] https://community.openai.com/t/anyone-can-explain-me-why-i-cannot-max-token-to-32k/951948
[8] https://www.reddit.com/r/openai/comments/1h7jm52/one_thing_that_openai_shouldve_highlighted_more/
[9] https://github.com/danny-avila/librechat/discussions/1077
[10] https://www.googlecloudcommunity.com/gc/ai-ml/gemini-1-0-tekon-cont-not-32k/m-p/719426