OpenReplay Logo
12k
12k

不可視文字クリーナー

隠れた Unicode——ゼロ幅文字、bidi 制御文字、タグ文字、ホモグリフ——を検出して削除します。これらはプロンプトインジェクションのペイロードを隠したり、テキストを破損させたりします。検出と除去はブラウザ内で行われます。

クリーニングするカテゴリー ローカルでスキャンおよびクリーニングされます

削除カテゴリーは文字を取り除きます。スペースと NBSP および 同形異字 は正規化(置換)され、正当なテキストを保護するためデフォルトで無効になっています。

まだスキャンするテキストがありません。
クリーニングされたテキスト
0 個を削除し、0 個の文字を正規化しました

このツールについて

テキストには目に見えない文字が含まれていることがあります。ゼロ幅スペースや結合子、バイトオーダーマーク、右から左への上書きや双方向の上書き、Unicode タグ文字、改行のないスペース、他の文字体系から来たそっくりなホモグリフなどです。これらはコピー&ペースト、リッチエディター、PDF から紛れ込み、LLM に渡されるテキストに隠れた指示を忍ばせたり、ある文字列を別の文字列に見せかけたりするために、ますます使われるようになっています。このツールはテキストを走査し、疑わしい文字をすべて、その位置、コードポイント、Unicode 名とともに一覧表示します。

各文字クラスは個別のトグルになっているため、何を取り除くかを自分で決められます。正当な絵文字やアクセント付き文字を保ちながらゼロ幅文字や bidi 制御文字を除去したり、ホモグリフを ASCII に正規化したりできます。前後比較ビューで何が変わったかを正確に確認でき、ワンクリックで除去後の結果をコピーできます。通常の多言語テキストを損なうものは、既定では何も削除されません。

検出と除去はすべてブラウザ内で実行されます。貼り付けたテキストは、それ自体が疑わしいペイロードである可能性があっても、お使いのデバイスから外に出ることはありません。

よくある質問

見えない文字、ゼロ幅文字とは何ですか?

目に見えるグリフを描画しない、または通常の空白として描画される Unicode コードポイントです。ゼロ幅スペース(U+200B)、ゼロ幅結合子(U+200D)、バイトオーダーマーク(U+FEFF)などがあります。一部の文字体系や絵文字シーケンスでは正当に現れますが、文脈を外れると、しばしばノイズか、データの隠し場所になります。

これはプロンプトインジェクションとどう関係しますか?

攻撃者は、人間のレビュアーには見えない文字を使って指示を埋め込むことができます——ゼロ幅シーケンスに隠したり、bidi の上書きで偽装したり——その結果、描画されたテキストは無害に見える一方で、モデルは別のものを読み取ります。テキストをモデルに送る前にこれらの文字を取り除けば、その隠し場所をなくせます。

ホモグリフとは何ですか?

異なる文字体系に属し、見た目が同一の文字のことです。たとえばラテン文字の「a」とキリル文字の「а」です。これらはドメイン、ユーザー名、キーワードのなりすましに使われます。このクリーナーは、よくあるそっくりさんを指摘し、ASCII の同等物に正規化できます。

絵文字やアクセント付き文字は削除されますか?

そうするよう指示しない限り削除されません。各カテゴリーは独立したトグルで、既定では絵文字や発音区別記号を含む通常の多言語テキストが保たれます。本当に隠されている、あるいは欺瞞的な文字だけが対象になります。