حول هذه الأداة
لا تقرأ النماذج اللغوية الكبيرة الأحرف أو الكلمات — بل تقرأ الرموز (tokens)، أي الكتل دون الكلمة التي يقسّم إليها المُرمِّز النص. وتتحكّم أعداد الرموز في كلٍّ من حدود السياق وفوترة الـ API، فمعرفة عدد الرموز التي يستهلكها التوجيه (prompt) هي الفرق بين طلب يتّسع وآخر يُقتطَع أو يصبح مكلفًا على نحو غير متوقع. ويُظهر هذا العدّاد عدد الرموز مباشرةً إلى جانب عددَي الأحرف والكلمات، إضافةً إلى عرض ملوَّن للتقسيم كي ترى بالضبط أين تقع الحدود.
اختر نموذجًا لتبديل المُرمِّزات. تستخدم نماذج OpenAI تقنية tiktoken — o200k_base لـ GPT-5.x وGPT-4o وGPT-4.1، وcl100k_base لـ GPT-3.5 — وتُنتِج أعدادًا دقيقة مطابقة للـ API. أما كل مزوّد آخر (Anthropic وGoogle وDeepSeek وAlibaba Qwen وMoonshot Kimi وZhipu GLM وMeta Llama) فليس له مُرمِّز رسمي يعمل في المتصفح، لذا تكون تلك الأعداد تقديرات مبنية على عدد الأحرف: مفيدة للتخطيط، لكن تحقّق منها مقابل تقارير الاستخدام الخاصة بالمزوّد قبل الاعتماد عليها في الفوترة.
يُرمَّز نصك بالكامل في متصفحك — فلا يُرفَع أي شيء، وتُحمَّل جداول tiktoken عند الطلب في أول مرة تحسب فيها.
الأسئلة الشائعة
ما هو الرمز (token)؟
الرمز هو الوحدة التي يعالجها النموذج اللغوي: فالكلمة الشائعة كثيرًا ما تكون رمزًا واحدًا، بينما تنقسم الكلمات الأطول أو الأندر إلى عدة رموز. وكقاعدة تقريبية، يساوي الرمز الواحد نحو أربعة أحرف من الإنجليزية، أو نحو ثلاثة أرباع كلمة — لكن الرقم الدقيق الوحيد هو ما يُنتِجه مُرمِّز النموذج نفسه.
هل الأعداد دقيقة؟
بالنسبة إلى نماذج OpenAI، نعم — فهذه الأداة تشغّل ترميزات tiktoken نفسها (o200k_base وcl100k_base) التي يستخدمها الـ API. أما كل مزوّد آخر — Anthropic وGoogle وDeepSeek وQwen وKimi وGLM وLlama — فليس له مُرمِّز رسمي عام يعمل من جهة العميل، لذا تكون تلك الأعداد تقديرات مبنية على عدد الأحرف وموسومة بوضوح بأنها تقديرات (بل توجد ملاحظة تنبّه إلى أن التقسيم الملوَّن تقريب على نمط OpenAI).
لماذا يستخدم النص نفسه عددًا مختلفًا من الرموز لكل نموذج؟
تُدرَّب كل عائلة نماذج بمُرمِّزها ومفرداتها الخاصة، فينقسم النص المتطابق على نحو مختلف. والمفردات الأحدث مثل o200k_base تحزم الإنجليزية الشائعة عمومًا في عدد أقل من الرموز مقارنةً بالأقدم، وقد تختلف الشيفرة أو الكتابات غير اللاتينية اختلافًا كبيرًا بين العائلات.
هل تتعامل مع الرموز التعبيرية واللغات الأخرى؟
نعم. تشمل الأعداد المُدخَل بالكامل بما في ذلك الرموز التعبيرية ومحارف CJK والأحرف المُشكَّلة. وفي العرض الملوَّن، يُدمَج المحرف الذي يُرمِّزه النموذج عبر عدة رموز في شريحة واحدة سهلة القراءة، بينما يظل العدد معبّرًا عن كل رمز كامن.