OpenReplay Logo
12k
12k

LLM トークンカウンター

GPT、Claude、Gemini、DeepSeek、Qwen、Llama などのトークン数を数え、テキストがどのように分割されるかを正確に確認できます。OpenAI には tiktoken による正確なカウント、それ以外にはラベル付きの推定値を、すべてブラウザ内で表示します。

正確 · tiktoken o200k_base
ローカルで処理されます
0
トークン
0
文字数
0
単語数
0
トークン / 単語
トークンの内訳
入力すると、トークンのチップがここに表示されます。

このツールについて

大規模言語モデルは文字や単語ではなく、トークン — トークナイザーがテキストを分割するサブワードの塊 — を読みます。トークン数はコンテキスト上限と API の課金の両方を左右するため、プロンプトが何トークンを使うかを知ることは、収まるリクエストになるか、それとも切り詰められたり予想外に高額になったりするリクエストになるかの分かれ目です。このカウンターは、文字数や単語数とともにライブのトークン数を表示し、さらに分割を色分けして表示することで、境界がどこに来るかを正確に確認できます。

モデルを選ぶとトークナイザーが切り替わります。OpenAI のモデルは tiktoken を使い、GPT-5.x、GPT-4o、GPT-4.1 には o200k_base を、GPT-3.5 には cl100k_base を用いて、API と同一の正確なカウントを生成します。それ以外のすべてのプロバイダー(Anthropic、Google、DeepSeek、Alibaba Qwen、Moonshot Kimi、Zhipu GLM、Meta Llama)には公式のブラウザ側トークナイザーがないため、それらのカウントは文字数ベースの推定値です。計画には役立ちますが、課金の根拠とする前にプロバイダー自身の使用状況レポートと照合してください。

テキストは完全にブラウザ内でトークン化されます。何もアップロードされず、tiktoken のテーブルは最初にカウントするときにオンデマンドで読み込まれます。

よくある質問

トークンとは何ですか?

トークンは言語モデルが処理する単位です。一般的な単語はしばしば 1 つのトークンになりますが、より長い、あるいは珍しい単語は複数に分割されます。おおまかな目安として 1 トークンは英語で約 4 文字、または単語のおよそ 4 分の 3 ですが、唯一の正確な数値はそのモデル自身のトークナイザーが生成するものです。

カウントは正確ですか?

OpenAI のモデルについては正確です。このツールは API が使うのと同じ tiktoken のエンコーディング(o200k_base と cl100k_base)を実行します。それ以外のすべてのプロバイダー(Anthropic、Google、DeepSeek、Qwen、Kimi、GLM、Llama)には公式の公開クライアント側トークナイザーがないため、それらのカウントは文字数ベースの推定値であり、推定値であることが明確にラベル付けされています(色分けされた分割が OpenAI に基づく近似であることを示す注記も表示されます)。

同じテキストでもモデルによって使うトークン数が異なるのはなぜですか?

各モデルファミリーはそれぞれ独自のトークナイザーと語彙で訓練されているため、同一のテキストでも分割のされ方が異なります。o200k_base のような新しい語彙は一般に、古いものよりも一般的な英語を少ないトークンに収め、コードや非ラテン文字はファミリー間で大きく異なることがあります。

絵文字や他の言語にも対応していますか?

はい。カウントは絵文字、CJK 文字、アクセント付き文字を含む入力全体を対象とします。色分け表示では、モデルが複数のトークンにまたがってエンコードする文字は読みやすい 1 つのチップにまとめられますが、カウントは依然として基となるすべてのトークンを反映します。