Об этом инструменте
Большие языковые модели не читают символы или слова — они читают токены, фрагменты подслов, на которые токенизатор разбивает текст. Число токенов определяет как лимиты контекста, так и тарификацию API, поэтому знание того, сколько токенов использует промпт, — это разница между запросом, который помещается, и тем, что обрезается или неожиданно дорог. Этот счётчик показывает число токенов в реальном времени рядом с числом символов и слов, а также раскрашенное представление сегментации, чтобы вы могли точно видеть, где проходят границы.
Выберите модель, чтобы переключить токенизатор. Модели OpenAI используют tiktoken — o200k_base для GPT-5.x, GPT-4o и GPT-4.1, cl100k_base для GPT-3.5 — и дают точные подсчёты, идентичные API. У всех остальных поставщиков (Anthropic, Google, DeepSeek, Alibaba Qwen, Moonshot Kimi, Zhipu GLM, Meta Llama) нет официального токенизатора на стороне браузера, поэтому эти подсчёты — оценки на основе символов: полезны для планирования, но проверяйте их по собственным отчётам об использовании поставщика, прежде чем полагаться на них для тарификации.
Ваш текст токенизируется полностью в вашем браузере — ничего не загружается, а таблицы tiktoken подгружаются по требованию при первом подсчёте.
Часто задаваемые вопросы
Что такое токен?
Токен — это единица, которую обрабатывает языковая модель: распространённое слово часто является одним токеном, тогда как более длинные или редкие слова разбиваются на несколько. По грубому правилу один токен — это примерно четыре символа английского текста или около трёх четвертей слова, но единственное точное число — это то, что выдаёт собственный токенизатор модели.
Точны ли подсчёты?
Для моделей OpenAI — да: этот инструмент выполняет те же кодировки tiktoken (o200k_base и cl100k_base), что использует API. Для всех остальных поставщиков — Anthropic, Google, DeepSeek, Qwen, Kimi, GLM, Llama — нет официального публичного токенизатора на стороне клиента, поэтому эти подсчёты являются оценками на основе символов и чётко помечены как оценки (примечание даже отмечает, что раскрашенное разбиение — это приближение OpenAI).
Почему один и тот же текст использует разное число токенов в разных моделях?
Каждое семейство моделей обучено со своим собственным токенизатором и словарём, поэтому идентичный текст разбивается по-разному. Более новые словари вроде o200k_base обычно упаковывают распространённый английский в меньшее число токенов, чем старые, а код или нелатинские письменности могут существенно различаться между семействами.
Обрабатывает ли он эмодзи и другие языки?
Да. Подсчёты охватывают весь ввод, включая эмодзи, символы CJK и буквы с диакритикой. В раскрашенном представлении символ, который модель кодирует несколькими токенами, объединяется в одну читаемую плашку, тогда как подсчёт всё равно отражает каждый базовый токен.