正则表达式 – grep for(curly | microsoft | smart)引号

前端之家收集整理的这篇文章主要介绍了正则表达式 – grep for(curly | microsoft | smart)引号前端之家小编觉得挺不错的,现在分享给大家,也给大家做个参考。
我有一个巨大的文件夹,里面装满了xml文件,其中一些文件可能会破坏,因为它们包含那些卷曲的引号,即Microsoft Word引号,即智能引号.我只是想快速检查一下,看看我遇到了什么.有谁知道如何为他们grep所以我很容易找到罪犯?

编辑

这是一个简化的例子.

<?xml version="1.0" encoding="UTF-8"?>
<items>
  <item>Pretend this is a curly quote: '</item>
</items>

解决方法

Curly引号具有以下Unicode代码点和UTF-8序列:

Name                                     CodePoint     UTF-8 sequence
----                                     ---------     --------------
LEFT SINGLE QUOTATION MARK               U+2018        0xE2 0x80 0x98
RIGHT SINGLE QUOTATION MARK              U+2019        0xE2 0x80 0x99
SINGLE LOW-9 QUOTATION MARK              U+201A        0xE2 0x80 0x9A
SINGLE HIGH-REVERSED-9 QUOTATION MARK    U+201B        0xE2 0x80 0x9B 
LEFT DOUBLE QUOTATION MARK               U+201C        0xE2 0x80 0x9C
RIGHT DOUBLE QUOTATION MARK              U+201D        0xE2 0x80 0x9D
DOUBLE LOW-9 QUOTATION MARK              U+201E        0xE2 0x80 0x9E
DOUBLE HIGH-REVERSED-9 QUOTATION MARK    U+201F        0xE2 0x80 0x9F

XML通常以UTF-8存储,因此您可以直接比较字节序列.

猜你在找的正则表达式相关文章