关于此工具
大语言模型并不读取字符或单词——它们读取 token,即分词器将文本切分成的子词块。token 数量决定了上下文限制和 API 计费,因此了解一段提示词用了多少 token,就决定了一个请求是恰好放得下,还是被截断或意外地昂贵。本计数器在显示字符数和单词数的同时,实时显示 token 数,并附带一个着色的切分视图,让你能精确看到边界落在何处。
选择一个模型即可切换分词器。OpenAI 模型使用 tiktoken——o200k_base 用于 GPT-5.x、GPT-4o 和 GPT-4.1,cl100k_base 用于 GPT-3.5——并产生与 API 完全一致的精确计数。其他每一家供应商(Anthropic、Google、DeepSeek、Alibaba Qwen、Moonshot Kimi、Zhipu GLM、Meta Llama)都没有官方的浏览器端分词器,因此那些计数是基于字符的估算值:可用于规划,但在依赖它们进行计费之前,请对照供应商自己的用量报告进行核实。
你的文本完全在你的浏览器中分词——不会上传任何内容,tiktoken 表会在你首次计数时按需加载。
常见问题
什么是 token?
token 是语言模型处理的单位:一个常见单词往往是单个 token,而较长或较罕见的单词会被切分为多个。粗略地说,一个 token 大约相当于四个英文字符,或约四分之三个单词——但唯一精确的数字是模型自身的分词器所产生的。
这些计数精确吗?
对于 OpenAI 模型,是的——本工具运行的是 API 所用的相同 tiktoken 编码(o200k_base 和 cl100k_base)。对于其他每一家供应商——Anthropic、Google、DeepSeek、Qwen、Kimi、GLM、Llama——没有官方公开的客户端分词器,因此那些计数是基于字符的估算值,并被明确标注为估算值(甚至有一条提示指出着色切分是 OpenAI 的近似结果)。
为什么同一段文本在不同模型下使用的 token 数不同?
每个模型系列都用自己的分词器和词表训练,因此相同的文本会以不同方式切分。像 o200k_base 这样较新的词表通常会把常见英文压缩成比旧词表更少的 token,而代码或非拉丁文字在不同系列之间可能差异很大。
它能处理 emoji 和其他语言吗?
可以。计数涵盖全部输入,包括 emoji、CJK 字符和带重音的字母。在着色视图中,一个被模型编码为多个 token 的字符会合并成一个可读的色块,而计数仍反映每一个底层 token。