À propos de cet outil
Les grands modèles de langage ne lisent ni les caractères ni les mots — ils lisent des tokens, les fragments de sous-mots dans lesquels un tokeniseur découpe le texte. Le nombre de tokens conditionne à la fois les limites de contexte et la facturation de l'API, de sorte que connaître le nombre de tokens qu'utilise une invite fait la différence entre une requête qui tient et une qui est tronquée ou anormalement coûteuse. Ce compteur affiche un nombre de tokens en direct aux côtés du nombre de caractères et de mots, ainsi qu'une vue colorisée de la segmentation pour que vous puissiez voir exactement où tombent les limites.
Choisissez un modèle pour changer de tokeniseur. Les modèles OpenAI utilisent tiktoken — o200k_base pour GPT-5.x, GPT-4o et GPT-4.1, cl100k_base pour GPT-3.5 — et produisent des comptages exacts, identiques à ceux de l'API. Tous les autres fournisseurs (Anthropic, Google, DeepSeek, Alibaba Qwen, Moonshot Kimi, Zhipu GLM, Meta Llama) n'ont pas de tokeniseur officiel côté navigateur, donc ces comptages sont des estimations basées sur les caractères : utiles pour la planification, mais vérifiez-les par rapport au propre rapport d'utilisation du fournisseur avant de vous y fier pour la facturation.
Votre texte est tokenisé entièrement dans votre navigateur — rien n'est téléversé, et les tables tiktoken se chargent à la demande lors de votre premier comptage.
Questions fréquentes
Qu'est-ce qu'un token ?
Un token est l'unité que traite un modèle de langage : un mot courant est souvent un seul token, tandis que les mots plus longs ou plus rares se divisent en plusieurs. En règle générale, un token correspond à environ quatre caractères d'anglais, soit à peu près trois quarts de mot — mais le seul chiffre exact est celui que produit le propre tokeniseur du modèle.
Les comptages sont-ils exacts ?
Pour les modèles OpenAI, oui — cet outil exécute les mêmes encodages tiktoken (o200k_base et cl100k_base) que l'API utilise. Pour tous les autres fournisseurs — Anthropic, Google, DeepSeek, Qwen, Kimi, GLM, Llama — il n'existe pas de tokeniseur public officiel côté client, donc ces comptages sont des estimations basées sur les caractères et sont clairement étiquetés comme estimations (une note signale même que le découpage colorisé est une approximation OpenAI).
Pourquoi le même texte utilise-t-il un nombre de tokens différent selon le modèle ?
Chaque famille de modèles est entraînée avec son propre tokeniseur et son propre vocabulaire, de sorte qu'un texte identique se découpe différemment. Les vocabulaires plus récents comme o200k_base condensent généralement l'anglais courant en moins de tokens que les anciens, et le code ou les écritures non latines peuvent varier sensiblement d'une famille à l'autre.
Gère-t-il les emojis et les autres langues ?
Oui. Les comptages couvrent l'intégralité de la saisie, y compris les emojis, les caractères CJK et les lettres accentuées. Dans la vue colorisée, un caractère qu'un modèle encode sur plusieurs tokens est fusionné en une seule puce lisible, tandis que le comptage reflète toujours chaque token sous-jacent.