JSONL 校验器

数据集格式

模型（用于每个示例的 token 数）

点击上传 .jsonl 文件，或将其拖放到此处

…或粘贴 JSONL

在本地处理

总行数

有效记录

错误

重复项

总 token 数

关于此工具

JSONL（JSON Lines）是微调 API 所期望的格式：每行一个完整的 JSON 对象，每个通常是一个对话样本，包含由角色和内容对组成的 messages 数组。仅仅一行格式错误就可能导致整个上传失败，因此这个验证工具会逐行解析你的文件，报告每个错误的确切行号和原因，并对每条有效记录进行美化打印，方便你阅读。

除了语法之外，它还会根据 OpenAI 和 Anthropic 的微调对话格式检查记录，统计样本数量，使用共享的分词器显示每个样本的 token 数，标记重复项，并让你下载随机化的训练/验证集拆分。粘贴文本或加载文件即可；大文件会分块解析，以保持页面响应流畅。

你的数据集完全在浏览器中解析——不会上传任何文件，这在训练数据敏感时尤为重要。

常见问题

什么是 JSONL 格式？

JSON Lines 每行存储一个 JSON 值，以换行符分隔。与单个 JSON 数组不同，它天然适合流式处理，并让工具逐条处理记录，这正是微调和日志流水线偏爱它的原因。

验证工具会检查什么？

首先检查每一行是否为有效的 JSON，并给出无效行的行号。然后，可选地，检查每条记录是否匹配所选的微调格式——例如一个 OpenAI 对话样本需要一个 messages 数组，其每个条目都带有角色和内容。它还会显示重复项和每个样本的 token 数。

有文件大小限制吗？

没有硬性限制，但由于一切都在本地运行，非常大的文件会受到浏览器可用内存的约束。解析器会分块处理各行，以便在工作时保持界面响应流畅。

训练/验证集拆分如何运作？

它会打乱有效记录，并按你选择的比例进行划分，然后将每个集合作为单独的 JSONL 提供下载——这是在训练前预留出评估数据的一种快捷方式。

关于此工具

常见问题

相关工具