OpenReplay Logo
12k
12k

Валидатор JSONL

Валидируйте, проверяйте и разбивайте наборы данных JSONL для дообучения OpenAI и Anthropic — отчёт об ошибках по строкам, токены на пример и разделение на train/validation в один клик, в вашем браузере.

Формат набора данных
Нажмите, чтобы загрузить файл .jsonl, или перетащите его сюда
Обрабатывается локально
0
Всего строк
0
Корректные записи
0
Ошибки
0
Дубликаты
0
Всего токенов

Об этом инструменте

JSONL (JSON Lines) — это формат, который ожидают API дообучения: один полный объект JSON на строку, обычно каждый из них представляет собой пример чата с массивом messages из пар role и content. Одна некорректная строка может провалить всю загрузку, поэтому этот валидатор разбирает ваш файл строка за строкой, сообщает точный номер строки и причину для каждой ошибки и красиво форматирует каждую корректную запись, чтобы вы могли её прочитать.

Помимо синтаксиса он проверяет записи на соответствие форматам чата для дообучения OpenAI и Anthropic, подсчитывает примеры, показывает токены на пример с помощью общего токенизатора, помечает дубликаты и позволяет скачать случайное разделение на train/validation. Вставьте текст или загрузите файл; большие файлы разбираются по фрагментам, чтобы страница оставалась отзывчивой.

Ваш набор данных разбирается полностью в вашем браузере — ни один файл не загружается на сервер, что важно, когда обучающие данные конфиденциальны.

Часто задаваемые вопросы

Что такое формат JSONL?

JSON Lines хранит одно значение JSON на строку, разделённые переводами строк. В отличие от единого массива JSON, он естественно поддаётся потоковой обработке и позволяет инструментам обрабатывать записи по одной, поэтому конвейеры дообучения и логирования предпочитают именно его.

Что проверяет валидатор?

Сначала то, что каждая строка является корректным JSON, с указанием номера строки для тех, что таковыми не являются. Затем, опционально, что каждая запись соответствует выбранному формату дообучения — например, пример чата OpenAI требует массив messages, каждая запись которого имеет role и content. Он также выявляет дубликаты и количество токенов на пример.

Есть ли ограничение на размер файла?

Жёсткого ограничения нет, но очень большие файлы ограничены доступной памятью вашего браузера, поскольку всё выполняется локально. Парсер обрабатывает строки по фрагментам, чтобы интерфейс оставался отзывчивым во время работы.

Как работает разделение на train/validation?

Оно перемешивает корректные записи и разбивает их по выбранному вами соотношению, а затем предлагает каждый набор в виде отдельной загрузки JSONL — быстрый способ отложить данные для оценки перед обучением.