Embaralha os registros válidos e os divide de acordo com a sua proporção de validação, depois baixa dois arquivos JSONL.
Sobre esta ferramenta
JSONL (JSON Lines) é o formato que as APIs de fine-tuning esperam: um objeto JSON completo por linha, cada um geralmente um exemplo de conversa com um array messages de pares role e content. Uma única linha malformada pode fazer falhar um envio inteiro, por isso este validador analisa o seu arquivo linha por linha, informa o número exato da linha e o motivo de cada erro e formata de modo legível cada registro válido para que você possa lê-lo.
Além da sintaxe, ele verifica os registros em relação aos formatos de conversa de fine-tune da OpenAI e da Anthropic, conta os exemplos, mostra os tokens por exemplo com o tokenizador compartilhado, sinaliza duplicatas e permite que você baixe uma divisão treino/validação aleatória. Cole texto ou carregue um arquivo; arquivos grandes são analisados em fragmentos para que a página permaneça responsiva.
Seu conjunto de dados é analisado inteiramente no seu navegador — nenhum arquivo é enviado, o que importa quando os dados de treinamento são sensíveis.
Perguntas frequentes
O que é o formato JSONL?
O JSON Lines armazena um valor JSON por linha, separados por quebras de linha. Diferentemente de um único array JSON, ele flui naturalmente e permite que as ferramentas processem os registros um de cada vez, e é por isso que os pipelines de fine-tuning e de log o preferem.
O que o validador verifica?
Primeiro, que cada linha seja JSON válido, com o número da linha das que não forem. Depois, opcionalmente, que cada registro corresponda ao formato de fine-tune escolhido — um exemplo de conversa da OpenAI, por exemplo, precisa de um array messages cujas entradas tenham cada uma um role e um content. Ele também destaca duplicatas e a contagem de tokens por exemplo.
Há um limite de tamanho de arquivo?
Não há um limite rígido, mas arquivos muito grandes ficam limitados pela memória disponível do seu navegador, já que tudo é executado localmente. O analisador processa as linhas em fragmentos para manter a interface responsiva enquanto trabalha.
Como funciona a divisão treino/validação?
Ela embaralha os registros válidos e os particiona segundo a proporção que você escolhe, depois oferece cada conjunto como um download JSONL separado — uma forma rápida de separar dados de avaliação antes do treinamento.