OpenReplay Logo
12k
12k

مدقّق JSONL

تحقّق من مجموعات بيانات الضبط الدقيق بصيغة JSONL وافحصها وقسّمها لـ OpenAI وAnthropic — تقرير أخطاء لكل سطر، ورموز لكل مثال، وتقسيم تدريب/تحقّق بنقرة واحدة، في متصفّحك.

تنسيق مجموعة البيانات
انقر للرفع ملف ‎.jsonl، أو اسحبه وأفلِته هنا
تتم المعالجة محليًا
0
إجمالي الأسطر
0
السجلات الصالحة
0
الأخطاء
0
التكرارات
0
إجمالي التوكنات

حول هذه الأداة

JSONL (JSON Lines) هي الصيغة التي تتوقّعها واجهات الضبط الدقيق: كائن JSON كامل واحد في كل سطر، وغالبًا ما يكون كل سطر مثال محادثة يضمّ مصفوفة messages من أزواج الدور والمحتوى. سطر واحد مُشوّه قد يُفشل عملية رفع بأكملها، لذا يحلّل هذا المُدقّق ملفّك سطرًا سطرًا، ويُبلّغ عن رقم السطر الدقيق وسبب كل خطأ، ويعرض كل سجلّ صالح بتنسيق مُهذّب لتتمكّن من قراءته.

إلى جانب البنية اللغوية، يتحقّق من السجلّات مقابل تنسيقات محادثة الضبط الدقيق الخاصة بـ OpenAI وAnthropic، ويعدّ الأمثلة، ويعرض الرموز لكل مثال باستخدام المُرمِّز المشترك، ويُنبّه إلى التكرارات، ويتيح لك تنزيل تقسيم تدريب/تحقّق عشوائي. الصق نصًّا أو حمّل ملفًّا؛ تُحلَّل الملفّات الكبيرة على دفعات لإبقاء الصفحة مُستجيبة.

تُحلَّل مجموعة بياناتك بالكامل في متصفّحك — لا يُرفَع أيّ ملف، وهو ما يهمّ عندما تكون بيانات التدريب حسّاسة.

الأسئلة الشائعة

ما هي صيغة JSONL؟

تخزّن JSON Lines قيمة JSON واحدة في كل سطر، مفصولةً بأسطر جديدة. وخلافًا لمصفوفة JSON واحدة، فإنّها تتدفّق بشكل طبيعي وتتيح للأدوات معالجة السجلّات واحدًا تلو الآخر، ولهذا تُفضّلها مسارات الضبط الدقيق والتسجيل.

ماذا يفحص المُدقّق؟

أولًا أنّ كل سطر هو JSON صالح، مع رقم السطر لأيّ سطر غير صالح. ثمّ، اختياريًا، أنّ كل سجلّ يُطابق تنسيق الضبط الدقيق المُختار — فمثال محادثة OpenAI، مثلًا، يحتاج إلى مصفوفة messages يحمل كل عنصر فيها دورًا ومحتوًى. كما يكشف عن التكرارات وعدد الرموز لكل مثال.

هل هناك حد لحجم الملف؟

لا يوجد حد صارم، لكنّ الملفّات الكبيرة جدًّا مُقيّدة بالذاكرة المتاحة في متصفّحك لأنّ كل شيء يعمل محليًّا. يعالج المُحلّل الأسطر على دفعات لإبقاء الواجهة مُستجيبةً أثناء عمله.

كيف يعمل تقسيم التدريب/التحقّق؟

يخلط السجلّات الصالحة ويُقسّمها وفق النسبة التي تختارها، ثمّ يُتيح كل مجموعة كتنزيل JSONL منفصل — طريقة سريعة لعزل بيانات التقييم قبل التدريب.