Когда вы общаетесь с ChatGPT, важно учитывать два важных аспекта.
Во-первых, это двусторонний обмен сообщениями - какие сообщения вы отправляете ему и какие получаете от него.
Во-вторых, в процессе общения сохраняется контекст, или история диалога, что позволяет сервису понимать, о чем идет речь, и продолжать разговор логично, а не считать каждое сообщение как новое и изолированное.
Теперь перейдем к тому, как измеряется объем текста и почему это важно.
Для этой цели в ChatGPT используется понятие "токены".
Давайте попробуем объяснить это проще.
Возьмем текст на русском языке:
"Буря мглою небо кроет,Вихри снежные крутя;То, как зверь, она завоет,То заплачет, как дитя, То по кровле обветшалойВдруг соломой зашумит, То, как путник запоздалый,К нам в окошко застучит."
В этом тексте 32 слова, но с точки зрения токенов, их уже 215.
Теперь посмотрим на английский вариант:
"The storm covers the sky with a hazeAs it swirls heaps of snow in the air. At times, it howls like a beast, And then cries like a child; At times, on top of the threadbare roof,It suddenly rustles straw,And then, like a late traveler,It knocks upon our window."
Здесь 53 слова, но всего 75 токенов.
Почему так? Все дело в том, что русские буквы (и символы других языков, не входящие в ASCII) преобразуются в специальные коды (UTF-8), которые занимают больше места.
Как же считаются токены?
Для этой задачи существует специальный калькулятор токенов, который рекомендуется использовать, если вам нужно знать точное количество токенов в тексте.
Как видно из наших примеров, подсчет токенов не всегда зависит от количества слов или символов. ChatGPT использует сложный алгоритм для подсчета токенов, и он может отличаться от обычного счета слов.
Для тех, кто интересуется подробностями, можно обратиться к официальной документации ChatGPT или попробовать посчитать самостоятельно с помощью их калькулятора: https://platform.openai.com/tokenizer
Итак, токен - это не просто символ или слово. Это абстрактная единица измерения текста, которая может иметь разную длину в зависимости от языка и других факторов. Больше слов обычно означает больше токенов.