OpenReplay Logo
12k
12k

JSONL 校验器

为 OpenAI 和 Anthropic 验证、检查并拆分 JSONL 微调数据集——逐行错误报告、每个样本的 token 数,以及一键训练/验证集拆分,全部在你的浏览器中完成。

数据集格式
点击上传 .jsonl 文件,或将其拖放到此处
在本地处理
0
总行数
0
有效记录
0
错误
0
重复项
0
总 token 数

关于此工具

JSONL(JSON Lines)是微调 API 所期望的格式:每行一个完整的 JSON 对象,每个通常是一个对话样本,包含由角色和内容对组成的 messages 数组。仅仅一行格式错误就可能导致整个上传失败,因此这个验证工具会逐行解析你的文件,报告每个错误的确切行号和原因,并对每条有效记录进行美化打印,方便你阅读。

除了语法之外,它还会根据 OpenAI 和 Anthropic 的微调对话格式检查记录,统计样本数量,使用共享的分词器显示每个样本的 token 数,标记重复项,并让你下载随机化的训练/验证集拆分。粘贴文本或加载文件即可;大文件会分块解析,以保持页面响应流畅。

你的数据集完全在浏览器中解析——不会上传任何文件,这在训练数据敏感时尤为重要。

常见问题

什么是 JSONL 格式?

JSON Lines 每行存储一个 JSON 值,以换行符分隔。与单个 JSON 数组不同,它天然适合流式处理,并让工具逐条处理记录,这正是微调和日志流水线偏爱它的原因。

验证工具会检查什么?

首先检查每一行是否为有效的 JSON,并给出无效行的行号。然后,可选地,检查每条记录是否匹配所选的微调格式——例如一个 OpenAI 对话样本需要一个 messages 数组,其每个条目都带有角色和内容。它还会显示重复项和每个样本的 token 数。

有文件大小限制吗?

没有硬性限制,但由于一切都在本地运行,非常大的文件会受到浏览器可用内存的约束。解析器会分块处理各行,以便在工作时保持界面响应流畅。

训练/验证集拆分如何运作?

它会打乱有效记录,并按你选择的比例进行划分,然后将每个集合作为单独的 JSONL 提供下载——这是在训练前预留出评估数据的一种快捷方式。