打乱有效记录,并按您设置的验证比例进行拆分,然后下载两个 JSONL 文件。
关于此工具
JSONL(JSON Lines)是微调 API 所期望的格式:每行一个完整的 JSON 对象,每个通常是一个对话样本,包含由角色和内容对组成的 messages 数组。仅仅一行格式错误就可能导致整个上传失败,因此这个验证工具会逐行解析你的文件,报告每个错误的确切行号和原因,并对每条有效记录进行美化打印,方便你阅读。
除了语法之外,它还会根据 OpenAI 和 Anthropic 的微调对话格式检查记录,统计样本数量,使用共享的分词器显示每个样本的 token 数,标记重复项,并让你下载随机化的训练/验证集拆分。粘贴文本或加载文件即可;大文件会分块解析,以保持页面响应流畅。
你的数据集完全在浏览器中解析——不会上传任何文件,这在训练数据敏感时尤为重要。
常见问题
什么是 JSONL 格式?
JSON Lines 每行存储一个 JSON 值,以换行符分隔。与单个 JSON 数组不同,它天然适合流式处理,并让工具逐条处理记录,这正是微调和日志流水线偏爱它的原因。
验证工具会检查什么?
首先检查每一行是否为有效的 JSON,并给出无效行的行号。然后,可选地,检查每条记录是否匹配所选的微调格式——例如一个 OpenAI 对话样本需要一个 messages 数组,其每个条目都带有角色和内容。它还会显示重复项和每个样本的 token 数。
有文件大小限制吗?
没有硬性限制,但由于一切都在本地运行,非常大的文件会受到浏览器可用内存的约束。解析器会分块处理各行,以便在工作时保持界面响应流畅。
训练/验证集拆分如何运作?
它会打乱有效记录,并按你选择的比例进行划分,然后将每个集合作为单独的 JSONL 提供下载——这是在训练前预留出评估数据的一种快捷方式。