OpenReplay Logo
12k
12k

Очистка невидимых символов

Обнаруживайте и удаляйте скрытый Unicode — символы нулевой ширины, управляющие символы bidi, теговые символы и омоглифы, — которые прячут полезную нагрузку инъекции промпта или портят текст. Сканирование и очистка в вашем браузере.

Категории для очистки Проверяется и очищается локально

Категории удаления убирают символ; Пробелы и NBSP и Омоглифы нормализуются (заменяются) и отключены по умолчанию для защиты легитимного текста.

Пока нет текста для проверки.
Очищенный текст
Удалено: 0, нормализовано символов: 0

Об этом инструменте

Текст может содержать символы, которые вы не видите: пробелы и соединители нулевой ширины, метки порядка байтов, переопределения справа налево и двунаправленные, теговые символы Unicode, неразрывные пробелы и похожие омоглифы из других письменностей. Они проникают через копирование-вставку, форматирующие редакторы и PDF — и всё чаще используются, чтобы протащить скрытые инструкции в текст, передаваемый LLM, или выдать одну строку за другую. Этот инструмент сканирует ваш текст и перечисляет каждый подозрительный символ с его позицией, кодовой точкой и именем Unicode.

Каждый класс символов — это отдельный переключатель, поэтому вы решаете, что удалять: очистить управляющие символы нулевой ширины и bidi, сохранив при этом легитимные эмодзи и буквы с диакритикой, или нормализовать омоглифы обратно в ASCII. Вид «до/после» показывает, что именно изменилось, и вы копируете очищенный результат одним кликом. По умолчанию не удаляется ничего, что повредило бы обычный многоязычный текст.

Обнаружение и очистка выполняются полностью в вашем браузере — текст, который вы вставляете и который сам может быть подозрительной полезной нагрузкой, никогда не покидает ваше устройство.

Часто задаваемые вопросы

Что такое невидимые символы или символы нулевой ширины?

Кодовые точки Unicode, которые отображаются без видимого глифа или как обычный пробел — пробел нулевой ширины (U+200B), соединитель нулевой ширины (U+200D), метка порядка байтов (U+FEFF) и другие. Они законно появляются в некоторых письменностях и последовательностях эмодзи, но вне контекста часто оказываются шумом или укрытием для данных.

Как это связано с инъекцией промпта?

Злоумышленники могут встраивать инструкции с помощью символов, которые человек-проверяющий не увидит — спрятанных в последовательности нулевой ширины или замаскированных переопределениями bidi, — так что отображаемый текст выглядит безобидным, тогда как модель читает нечто иное. Удаление этих символов перед отправкой текста модели устраняет такое укрытие.

Что такое омоглифы?

Символы из разных письменностей, выглядящие одинаково, например латинская «a» и кириллическая «а». Их используют для подделки доменов, имён пользователей и ключевых слов; очиститель может помечать и нормализовать распространённые двойники обратно в их эквиваленты ASCII.

Удалит ли он эмодзи или буквы с диакритикой?

Нет, если вы об этом не попросите. Каждая категория — это независимый переключатель, а настройки по умолчанию сохраняют обычный многоязычный текст, включая эмодзи и диакритические знаки — нацеливание идёт только на по-настоящему скрытые или обманчивые символы.