OpenReplay Logo
12k
12k

Nettoyeur de caractères invisibles

Détectez et supprimez l'Unicode caché — caractères de largeur nulle, contrôles bidi, caractères de tag et homoglyphes — qui dissimulent des charges d'injection de prompt ou corrompent le texte. Analysé et nettoyé dans votre navigateur.

Catégories à nettoyer Analysé et nettoyé localement

Les catégories de suppression retirent le caractère ; Espaces et NBSP et Homoglyphes sont normalisés (remplacés) et désactivés par défaut afin de protéger le texte légitime.

Aucun texte à analyser pour l’instant.
Texte nettoyé
0 caractères supprimés, 0 normalisés

À propos de cet outil

Le texte peut contenir des caractères que vous ne voyez pas : espaces et liants de largeur nulle, marques d'ordre des octets, surcharges de droite à gauche et bidirectionnelles, caractères de tag Unicode, espaces insécables et homoglyphes ressemblants issus d'autres écritures. Ils s'infiltrent par le copier-coller, les éditeurs riches et les PDF — et ils sont de plus en plus utilisés pour glisser des instructions cachées dans le texte transmis à un LLM, ou pour déguiser une chaîne en une autre. Cet outil analyse votre texte et liste chaque caractère suspect avec sa position, son point de code et son nom Unicode.

Chaque classe de caractères dispose d'un interrupteur distinct, vous décidez donc ce que vous supprimez — nettoyer les contrôles de largeur nulle et bidi tout en conservant les emoji et lettres accentuées légitimes, ou normaliser les homoglyphes vers l'ASCII. Une vue avant/après montre exactement ce qui a changé et vous copiez le résultat nettoyé en un clic. Rien de ce qui endommagerait un texte multilingue normal n'est supprimé par défaut.

La détection et le nettoyage s'exécutent entièrement dans votre navigateur — le texte que vous collez, qui peut lui-même être une charge suspecte, ne quitte jamais votre appareil.

Questions fréquentes

Que sont les caractères invisibles ou de largeur nulle ?

Des points de code Unicode qui s'affichent comme aucun glyphe visible ou comme un espace ordinaire — l'espace de largeur nulle (U+200B), le liant de largeur nulle (U+200D), la marque d'ordre des octets (U+FEFF) et d'autres. Ils apparaissent légitimement dans certaines écritures et séquences d'emoji, mais hors contexte ils sont souvent du bruit ou une cachette pour des données.

En quoi est-ce lié à l'injection de prompt ?

Les attaquants peuvent intégrer des instructions à l'aide de caractères qu'un relecteur humain ne verra pas — cachés dans une séquence de largeur nulle ou déguisés avec des surcharges bidi — de sorte que le texte affiché paraît inoffensif tandis que le modèle lit autre chose. Supprimer ces caractères avant d'envoyer le texte à un modèle élimine cette cachette.

Que sont les homoglyphes ?

Des caractères issus d'écritures différentes qui se ressemblent à l'identique, comme le « a » latin et le « а » cyrillique. Ils sont utilisés pour usurper des domaines, des noms d'utilisateur et des mots-clés ; le nettoyeur peut signaler et normaliser les sosies courants vers leurs équivalents ASCII.

Va-t-il supprimer les emoji ou les lettres accentuées ?

Pas sauf si vous le lui demandez. Chaque catégorie est un interrupteur indépendant et les valeurs par défaut préservent le texte multilingue normal, y compris les emoji et les signes diacritiques — seuls les caractères véritablement cachés ou trompeurs sont ciblés.