Mezcla los registros válidos y los divide según tu proporción de validación, luego descarga dos archivos JSONL.
Acerca de esta herramienta
JSONL (JSON Lines) es el formato que esperan las API de fine-tuning: un objeto JSON completo por línea, cada uno normalmente un ejemplo de conversación con un array messages de pares role y content. Una sola línea mal formada puede hacer fracasar toda una subida, por eso este validador analiza tu archivo línea por línea, indica el número de línea exacto y el motivo de cada error, y formatea con sangría cada registro válido para que puedas leerlo.
Más allá de la sintaxis, comprueba los registros frente a los formatos de conversación de fine-tune de OpenAI y Anthropic, cuenta los ejemplos, muestra los tokens por ejemplo con el tokenizador compartido, señala los duplicados y te permite descargar una división train/validación aleatoria. Pega texto o carga un archivo; los archivos grandes se analizan por fragmentos para que la página siga respondiendo.
Tu conjunto de datos se analiza enteramente en tu navegador — no se sube ningún archivo, lo que importa cuando los datos de entrenamiento son sensibles.
Preguntas frecuentes
¿Qué es el formato JSONL?
JSON Lines almacena un valor JSON por línea, separados por saltos de línea. A diferencia de un único array JSON, se transmite de forma natural y permite que las herramientas procesen los registros uno a uno, que es por lo que los pipelines de fine-tuning y de registro lo prefieren.
¿Qué comprueba el validador?
Primero, que cada línea sea JSON válido, con el número de línea de las que no lo sean. Luego, opcionalmente, que cada registro coincida con el formato de fine-tune elegido — un ejemplo de conversación de OpenAI, por ejemplo, necesita un array messages cuyas entradas tengan cada una un role y un content. También saca a la luz los duplicados y el recuento de tokens por ejemplo.
¿Hay un límite de tamaño de archivo?
No hay un límite estricto, pero los archivos muy grandes están limitados por la memoria disponible de tu navegador, ya que todo se ejecuta localmente. El analizador procesa las líneas por fragmentos para mantener la interfaz receptiva mientras trabaja.
¿Cómo funciona la división train/validación?
Baraja los registros válidos y los reparte según la proporción que elijas, y luego ofrece cada conjunto como una descarga JSONL independiente — una forma rápida de apartar datos de evaluación antes del entrenamiento.