移除类别会删除该字符;空格和 NBSP 与 同形字符 会被规范化(替换),并默认关闭以保护合法文本。
| 字符 | 码位 | Unicode 名称 | 类别 | 位置 |
|---|
关于此工具
文本可能携带你看不见的字符:零宽空格和连接符、字节顺序标记、从右到左和双向覆写符、Unicode 标签字符、不换行空格,以及来自其他文字系统的形近同形异义字。它们会从复制粘贴、富文本编辑器和 PDF 中混入——而且越来越多地被用来将隐藏指令偷带进喂给 LLM 的文本中,或把一个字符串伪装成另一个。本工具会扫描你的文本,并列出每一个可疑字符及其位置、码点和 Unicode 名称。
每一类字符都是独立的开关,因此由你来决定移除什么——清理零宽字符和双向控制符,同时保留合法的表情符号和带重音的字母,或者把同形异义字规范化回 ASCII。前后对比视图会准确显示发生了什么变化,你只需一键即可复制清理后的结果。默认情况下不会移除任何会破坏正常多语言文本的内容。
检测和清理完全在你的浏览器中运行——你粘贴的文本(它本身可能就是一个可疑载荷)绝不会离开你的设备。
常见问题
什么是不可见字符或零宽字符?
它们是渲染时不显示可见字形、或表现为普通空白的 Unicode 码点——零宽空格(U+200B)、零宽连接符(U+200D)、字节顺序标记(U+FEFF)等。它们在某些文字系统和表情符号序列中是合法存在的,但脱离上下文时往往是噪声,或是藏匿数据的地方。
这与提示词注入有什么关系?
攻击者可以利用人类审阅者看不到的字符嵌入指令——藏在零宽序列中,或用双向覆写符伪装——这样渲染出的文本看起来无害,而模型读到的却是别的东西。在把文本发送给模型之前剥除这些字符,就能消除这个藏匿之处。
什么是同形异义字?
它们是来自不同文字系统、外观完全相同的字符,比如拉丁字母 'a' 和西里尔字母 'а'。它们被用来仿冒域名、用户名和关键词;清理工具可以标记并将常见的形近字规范化回它们的 ASCII 等价字符。
它会移除表情符号或带重音的字母吗?
除非你要求,否则不会。每个类别都是独立的开关,默认设置会保留正常的多语言文本,包括表情符号和变音符号——只针对真正隐藏或具有欺骗性的字符。