OpenReplay Logo
12k
12k

Validateur JSONL

Validez, inspectez et divisez des jeux de données de fine-tuning JSONL pour OpenAI et Anthropic — rapport d'erreurs ligne par ligne, tokens par exemple et division train/validation en un clic, dans votre navigateur.

Format du jeu de données
Cliquez pour téléverser un fichier .jsonl, ou glissez-déposez-le ici
Traité localement
0
Total des lignes
0
Enregistrements valides
0
Erreurs
0
Doublons
0
Total des tokens

À propos de cet outil

JSONL (JSON Lines) est le format attendu par les API de fine-tuning : un objet JSON complet par ligne, chacun étant généralement un exemple de conversation avec un tableau messages de paires role et content. Une seule ligne mal formée peut faire échouer tout un envoi, c'est pourquoi ce validateur analyse votre fichier ligne par ligne, signale le numéro de ligne exact et la raison de chaque erreur, et formate joliment chaque enregistrement valide pour que vous puissiez le lire.

Au-delà de la syntaxe, il vérifie les enregistrements par rapport aux formats de conversation de fine-tune d'OpenAI et d'Anthropic, compte les exemples, affiche les tokens par exemple avec le tokenizer partagé, signale les doublons et vous permet de télécharger une division train/validation aléatoire. Collez du texte ou chargez un fichier ; les fichiers volumineux sont analysés par fragments pour que la page reste réactive.

Votre jeu de données est analysé entièrement dans votre navigateur — aucun fichier n'est envoyé, ce qui compte lorsque les données d'entraînement sont sensibles.

Questions fréquentes

Qu'est-ce que le format JSONL ?

JSON Lines stocke une valeur JSON par ligne, séparées par des sauts de ligne. Contrairement à un tableau JSON unique, il se diffuse naturellement et permet aux outils de traiter les enregistrements un à un, ce qui explique pourquoi les pipelines de fine-tuning et de journalisation le préfèrent.

Que vérifie le validateur ?

D'abord que chaque ligne est du JSON valide, avec le numéro de ligne de celles qui ne le sont pas. Ensuite, en option, que chaque enregistrement correspond au format de fine-tune choisi — un exemple de conversation OpenAI, par exemple, nécessite un tableau messages dont chaque entrée comporte un role et un content. Il fait aussi ressortir les doublons et le nombre de tokens par exemple.

Y a-t-il une limite de taille de fichier ?

Il n'y a pas de limite stricte, mais les fichiers très volumineux sont limités par la mémoire disponible de votre navigateur puisque tout s'exécute localement. L'analyseur traite les lignes par fragments pour garder l'interface réactive pendant son travail.

Comment fonctionne la division train/validation ?

Elle mélange les enregistrements valides et les partitionne selon le ratio que vous choisissez, puis propose chaque ensemble en tant que téléchargement JSONL distinct — un moyen rapide de mettre de côté des données d'évaluation avant l'entraînement.