يخلط السجلات الصالحة ويقسّمها وفق نسبة التحقّق التي تحدّدها، ثم ينزّل ملفَّي JSONL.
حول هذه الأداة
JSONL (JSON Lines) هي الصيغة التي تتوقّعها واجهات الضبط الدقيق: كائن JSON كامل واحد في كل سطر، وغالبًا ما يكون كل سطر مثال محادثة يضمّ مصفوفة messages من أزواج الدور والمحتوى. سطر واحد مُشوّه قد يُفشل عملية رفع بأكملها، لذا يحلّل هذا المُدقّق ملفّك سطرًا سطرًا، ويُبلّغ عن رقم السطر الدقيق وسبب كل خطأ، ويعرض كل سجلّ صالح بتنسيق مُهذّب لتتمكّن من قراءته.
إلى جانب البنية اللغوية، يتحقّق من السجلّات مقابل تنسيقات محادثة الضبط الدقيق الخاصة بـ OpenAI وAnthropic، ويعدّ الأمثلة، ويعرض الرموز لكل مثال باستخدام المُرمِّز المشترك، ويُنبّه إلى التكرارات، ويتيح لك تنزيل تقسيم تدريب/تحقّق عشوائي. الصق نصًّا أو حمّل ملفًّا؛ تُحلَّل الملفّات الكبيرة على دفعات لإبقاء الصفحة مُستجيبة.
تُحلَّل مجموعة بياناتك بالكامل في متصفّحك — لا يُرفَع أيّ ملف، وهو ما يهمّ عندما تكون بيانات التدريب حسّاسة.
الأسئلة الشائعة
ما هي صيغة JSONL؟
تخزّن JSON Lines قيمة JSON واحدة في كل سطر، مفصولةً بأسطر جديدة. وخلافًا لمصفوفة JSON واحدة، فإنّها تتدفّق بشكل طبيعي وتتيح للأدوات معالجة السجلّات واحدًا تلو الآخر، ولهذا تُفضّلها مسارات الضبط الدقيق والتسجيل.
ماذا يفحص المُدقّق؟
أولًا أنّ كل سطر هو JSON صالح، مع رقم السطر لأيّ سطر غير صالح. ثمّ، اختياريًا، أنّ كل سجلّ يُطابق تنسيق الضبط الدقيق المُختار — فمثال محادثة OpenAI، مثلًا، يحتاج إلى مصفوفة messages يحمل كل عنصر فيها دورًا ومحتوًى. كما يكشف عن التكرارات وعدد الرموز لكل مثال.
هل هناك حد لحجم الملف؟
لا يوجد حد صارم، لكنّ الملفّات الكبيرة جدًّا مُقيّدة بالذاكرة المتاحة في متصفّحك لأنّ كل شيء يعمل محليًّا. يعالج المُحلّل الأسطر على دفعات لإبقاء الواجهة مُستجيبةً أثناء عمله.
كيف يعمل تقسيم التدريب/التحقّق؟
يخلط السجلّات الصالحة ويُقسّمها وفق النسبة التي تختارها، ثمّ يُتيح كل مجموعة كتنزيل JSONL منفصل — طريقة سريعة لعزل بيانات التقييم قبل التدريب.