Mélange les enregistrements valides et les divise selon votre ratio de validation, puis télécharge deux fichiers JSONL.
À propos de cet outil
JSONL (JSON Lines) est le format attendu par les API de fine-tuning : un objet JSON complet par ligne, chacun étant généralement un exemple de conversation avec un tableau messages de paires role et content. Une seule ligne mal formée peut faire échouer tout un envoi, c'est pourquoi ce validateur analyse votre fichier ligne par ligne, signale le numéro de ligne exact et la raison de chaque erreur, et formate joliment chaque enregistrement valide pour que vous puissiez le lire.
Au-delà de la syntaxe, il vérifie les enregistrements par rapport aux formats de conversation de fine-tune d'OpenAI et d'Anthropic, compte les exemples, affiche les tokens par exemple avec le tokenizer partagé, signale les doublons et vous permet de télécharger une division train/validation aléatoire. Collez du texte ou chargez un fichier ; les fichiers volumineux sont analysés par fragments pour que la page reste réactive.
Votre jeu de données est analysé entièrement dans votre navigateur — aucun fichier n'est envoyé, ce qui compte lorsque les données d'entraînement sont sensibles.
Questions fréquentes
Qu'est-ce que le format JSONL ?
JSON Lines stocke une valeur JSON par ligne, séparées par des sauts de ligne. Contrairement à un tableau JSON unique, il se diffuse naturellement et permet aux outils de traiter les enregistrements un à un, ce qui explique pourquoi les pipelines de fine-tuning et de journalisation le préfèrent.
Que vérifie le validateur ?
D'abord que chaque ligne est du JSON valide, avec le numéro de ligne de celles qui ne le sont pas. Ensuite, en option, que chaque enregistrement correspond au format de fine-tune choisi — un exemple de conversation OpenAI, par exemple, nécessite un tableau messages dont chaque entrée comporte un role et un content. Il fait aussi ressortir les doublons et le nombre de tokens par exemple.
Y a-t-il une limite de taille de fichier ?
Il n'y a pas de limite stricte, mais les fichiers très volumineux sont limités par la mémoire disponible de votre navigateur puisque tout s'exécute localement. L'analyseur traite les lignes par fragments pour garder l'interface réactive pendant son travail.
Comment fonctionne la division train/validation ?
Elle mélange les enregistrements valides et les partitionne selon le ratio que vous choisissez, puis propose chaque ensemble en tant que téléchargement JSONL distinct — un moyen rapide de mettre de côté des données d'évaluation avant l'entraînement.