有効なレコードをシャッフルし、指定した検証比率で分割してから、2 つの JSONL ファイルをダウンロードします。
このツールについて
JSONL(JSON Lines)は、ファインチューニング API が期待する形式です。1行につき1つの完全な JSON オブジェクトで、各行は通常、role と content のペアからなる messages 配列を持つチャットの例です。1行でも不正な形式があるとアップロード全体が失敗しかねないため、このバリデーターはファイルを1行ずつ解析し、すべてのエラーについて正確な行番号と理由を報告し、有効な各レコードを読みやすいように整形して表示します。
構文を超えて、レコードを OpenAI と Anthropic のファインチューン用チャット形式に照らして検査し、例の数を数え、共有のトークナイザーで例ごとのトークン数を表示し、重複を指摘し、ランダム化された訓練/検証分割をダウンロードできるようにします。テキストを貼り付けるか、ファイルを読み込んでください。大きなファイルはチャンク単位で解析されるため、ページの反応性が保たれます。
データセットはすべてブラウザ内で解析されます。ファイルはアップロードされないため、訓練データが機密性の高いものである場合に重要です。
よくある質問
JSONL 形式とは何ですか?
JSON Lines は、1行につき1つの JSON 値を改行で区切って格納します。単一の JSON 配列とは異なり、自然にストリーミングでき、ツールがレコードを1つずつ処理できるため、ファインチューニングやロギングのパイプラインで好まれます。
バリデーターは何を検査しますか?
まず、各行が有効な JSON であることを検査し、そうでないものについては行番号を示します。次に、オプションとして、各レコードが選択したファインチューン形式に一致するかを検査します。たとえば OpenAI のチャットの例では、各エントリが role と content を持つ messages 配列が必要です。また、重複と例ごとのトークン数も表示します。
ファイルサイズの上限はありますか?
明確な上限はありませんが、すべてローカルで実行されるため、非常に大きなファイルはブラウザの利用可能なメモリに制約されます。パーサーは処理中もインターフェースの反応性を保つために、行をチャンク単位で処理します。
訓練/検証分割はどのように機能しますか?
有効なレコードをシャッフルし、選択した比率で分割したうえで、各セットを別々の JSONL ダウンロードとして提供します。訓練の前に評価用データを取り分けておく手早い方法です。