Счётчик токенов LLM

Модель

Точно · tiktoken o200k_base

Ваш промпт

Обрабатывается локально

Токены

Символы

Слова

Токены / слово

Разбивка на токены

Метки токенов появляются здесь по мере ввода.

Об этом инструменте

Большие языковые модели не читают символы или слова — они читают токены, фрагменты подслов, на которые токенизатор разбивает текст. Число токенов определяет как лимиты контекста, так и тарификацию API, поэтому знание того, сколько токенов использует промпт, — это разница между запросом, который помещается, и тем, что обрезается или неожиданно дорог. Этот счётчик показывает число токенов в реальном времени рядом с числом символов и слов, а также раскрашенное представление сегментации, чтобы вы могли точно видеть, где проходят границы.

Выберите модель, чтобы переключить токенизатор. Модели OpenAI используют tiktoken — o200k_base для GPT-5.x, GPT-4o и GPT-4.1, cl100k_base для GPT-3.5 — и дают точные подсчёты, идентичные API. У всех остальных поставщиков (Anthropic, Google, DeepSeek, Alibaba Qwen, Moonshot Kimi, Zhipu GLM, Meta Llama) нет официального токенизатора на стороне браузера, поэтому эти подсчёты — оценки на основе символов: полезны для планирования, но проверяйте их по собственным отчётам об использовании поставщика, прежде чем полагаться на них для тарификации.

Ваш текст токенизируется полностью в вашем браузере — ничего не загружается, а таблицы tiktoken подгружаются по требованию при первом подсчёте.

Часто задаваемые вопросы

Что такое токен?

Токен — это единица, которую обрабатывает языковая модель: распространённое слово часто является одним токеном, тогда как более длинные или редкие слова разбиваются на несколько. По грубому правилу один токен — это примерно четыре символа английского текста или около трёх четвертей слова, но единственное точное число — это то, что выдаёт собственный токенизатор модели.

Точны ли подсчёты?

Для моделей OpenAI — да: этот инструмент выполняет те же кодировки tiktoken (o200k_base и cl100k_base), что использует API. Для всех остальных поставщиков — Anthropic, Google, DeepSeek, Qwen, Kimi, GLM, Llama — нет официального публичного токенизатора на стороне клиента, поэтому эти подсчёты являются оценками на основе символов и чётко помечены как оценки (примечание даже отмечает, что раскрашенное разбиение — это приближение OpenAI).

Почему один и тот же текст использует разное число токенов в разных моделях?

Каждое семейство моделей обучено со своим собственным токенизатором и словарём, поэтому идентичный текст разбивается по-разному. Более новые словари вроде o200k_base обычно упаковывают распространённый английский в меньшее число токенов, чем старые, а код или нелатинские письменности могут существенно различаться между семействами.

Обрабатывает ли он эмодзи и другие языки?

Да. Подсчёты охватывают весь ввод, включая эмодзи, символы CJK и буквы с диакритикой. В раскрашенном представлении символ, который модель кодирует несколькими токенами, объединяется в одну читаемую плашку, тогда как подсчёт всё равно отражает каждый базовый токен.

Об этом инструменте

Часто задаваемые вопросы

Похожие инструменты