由于多个团队成员使用不同的编辑器(和默认设置)进行开发,因此我正在处理一些代码库,其中包含一些unicode编码文件.我想通过查找所有unicode编码的文件并将其转换回ANSI编码来清理我们的代码库.
任何关于如何完成这项任务的“寻找”部分的想法都将得到真正的赞赏.
见
“How to detect the character encoding of a text-file?”或
“How to reliably guess the encoding […]?”
> UTF-8可以通过验证检测.您也可以寻找BOM EF BB BF,但不要依赖它.
可以通过查找BOM来检测UTF-16.
> UTF-32可以通过验证或BOM来检测.
>否则假设ANSI代码页.
Our codebase doesn’t include any
non-ASCII chars. I will try to grep
for the BOM in files in our codebase.
Thanks for the clarification.
这样做使事情变得更简单.没有非ASCII字符的UTF-8是ASCII.