LLM Token 计数器

模型

精确 · tiktoken o200k_base

您的提示词

本地处理

Token

字符

词数

Token / 词

Token 切分

输入时，token 标签会显示在这里。

关于此工具

大语言模型并不读取字符或单词——它们读取 token，即分词器将文本切分成的子词块。token 数量决定了上下文限制和 API 计费，因此了解一段提示词用了多少 token，就决定了一个请求是恰好放得下，还是被截断或意外地昂贵。本计数器在显示字符数和单词数的同时，实时显示 token 数，并附带一个着色的切分视图，让你能精确看到边界落在何处。

选择一个模型即可切换分词器。OpenAI 模型使用 tiktoken——o200k_base 用于 GPT-5.x、GPT-4o 和 GPT-4.1，cl100k_base 用于 GPT-3.5——并产生与 API 完全一致的精确计数。其他每一家供应商（Anthropic、Google、DeepSeek、Alibaba Qwen、Moonshot Kimi、Zhipu GLM、Meta Llama）都没有官方的浏览器端分词器，因此那些计数是基于字符的估算值：可用于规划，但在依赖它们进行计费之前，请对照供应商自己的用量报告进行核实。

你的文本完全在你的浏览器中分词——不会上传任何内容，tiktoken 表会在你首次计数时按需加载。

常见问题

什么是 token？

token 是语言模型处理的单位：一个常见单词往往是单个 token，而较长或较罕见的单词会被切分为多个。粗略地说，一个 token 大约相当于四个英文字符，或约四分之三个单词——但唯一精确的数字是模型自身的分词器所产生的。

这些计数精确吗？

对于 OpenAI 模型，是的——本工具运行的是 API 所用的相同 tiktoken 编码（o200k_base 和 cl100k_base）。对于其他每一家供应商——Anthropic、Google、DeepSeek、Qwen、Kimi、GLM、Llama——没有官方公开的客户端分词器，因此那些计数是基于字符的估算值，并被明确标注为估算值（甚至有一条提示指出着色切分是 OpenAI 的近似结果）。

为什么同一段文本在不同模型下使用的 token 数不同？

每个模型系列都用自己的分词器和词表训练，因此相同的文本会以不同方式切分。像 o200k_base 这样较新的词表通常会把常见英文压缩成比旧词表更少的 token，而代码或非拉丁文字在不同系列之间可能差异很大。

它能处理 emoji 和其他语言吗？

可以。计数涵盖全部输入，包括 emoji、CJK 字符和带重音的字母。在着色视图中，一个被模型编码为多个 token 的字符会合并成一个可读的色块，而计数仍反映每一个底层 token。

关于此工具

常见问题

相关工具