频道导航

PHP中mb_detect_order()的奇怪行为

2020-07-16 PHP 前端之家

前端之家收集整理的这篇文章主要介绍了PHP中mb_detect_order()的奇怪行为，前端之家小编觉得挺不错的，现在分享给大家，也给大家做个参考。

我想检测一些文本的编码(使用 PHP).
为此,我使用mb_detect_encoding()函数.

问题是如果我用mb_detect_order()函数改变可能的编码顺序,函数会返回不同的结果.

请考虑以下示例

$html = <<< STR
ちょっとのアクセスで落ちてしまったり、サーバー障害が多いレンタルサーバーを選ぶとあなたのビジネス等にかなりの影響がでてしまう可能性があります.特に商売をされている個人の方、法人の方は気をつけるようにしてください
STR;
mb_detect_order(array('UTF-8','EUC-JP','SJIS','eucJP-win','SJIS-win','JIS','ISO-2022-JP','ISO-8859-1','ISO-8859-2'));
$originalEncoding = mb_detect_encoding($str);
die($originalEncoding); // $originalEncoding = 'UTF-8'

但是,如果您更改mb_detect_order()中的编码顺序,结果将会有所不同：

mb_detect_order(array('EUC-JP','UTF-8','ISO-8859-2'));        
die($originalEncoding); // $originalEncoding = 'EUC-JP'

所以我的问题是：
为什么会这样？
PHP中有没有一种方法可以正确无误地检测文本的编码？

这就是我期望发生的事情.

检测算法可能只是按顺序继续尝试在mb_detect_order中指定的编码,然后返回字节流有效的第一个编码.

更智能的东西需要统计方法(我认为通常使用机器学习).

编辑：参见例如this article更智能的方法.

Due to its importance,automatic charset detection is already implemented in major Internet applications such as Mozilla or Internet Explorer. They are very accurate and fast,but the implementation applies many domain specific knowledges in case-by-case basis. As opposed to their methods,we aimed at a simple algorithm which can be uniformly applied to every charset,and the algorithm is based on well-established,standard machine learning techniques. We also studied the relationship between language and charset detection,and compared byte-based algorithms and character-based algorithms. We used Naive Bayes (NB) and Support Vector Machine (SVM).

上一篇：cakephp-2.0 – 为什么CakePHP 2.0 下一篇：php – 在Symfony2上的测试环境中禁

猜你在找的PHP相关文章

Hessian通讯协议【附PHP源代码】

Hessian开源的远程通讯，采用二进制 RPC的协议，基于 HTTP 传输。可以实现PHP调用Java,Pyt...

作者：前端之家时间：2021-02-22

初识Mongodb总结

初识Mongodb的一些总结,在Mac Os X下真实搭建mongodb环境,以及分享个Mongodb管理工具,学习...

作者：前端之家时间：2021-02-22

初识Mongodb之[CURD]-PHP版

边看边操作,这样才能记得牢,实践是检验真理的唯一标准.光看不练假把式,光练不看傻把式,边看...

作者：前端之家时间：2021-02-22

php学习日志 - echo&print

在php中，结果输出一共有两种方式：echo和print，下面将对两种方式做一个比较。 echo与pri...

作者：前端之家时间：2021-02-21

The mbstring extension is missing. Please check your PHP configuration错误及解决方法

在安装好wampServer后，一直没有使用phpMyAdmin,今天用了一下，phpMyAdmin显示错误：The m...

作者：前端之家时间：2021-02-21

解决Windows Live Writer错误:WindowsLive.Writer.CoreServices.HttpRequestHelper的类型初始值设定发生异常

以前用Windows Live Writer写日志都好好的，前几天用写完日志，点击发布，突然弹出意外错误...

作者：前端之家时间：2021-02-21

在PHP项目中使用Standford Moss代码查重系统

Standford Moss 系统是斯坦福大学大名鼎鼎的代码查重系统，它可以查出哪些同学提交的代码是...

作者：前端之家时间：2021-02-18

Windows下PHP安全环境的搭建

笔者一直在Windows环境下搭建PHP的运行环境，大大小小的运行环境用过不少，从开始的WAMP到...

作者：前端之家时间：2021-02-18

ThinkPHP5作业管理系统中处理学生未交作业与已交作业信息

在作业管理系统中，学生登陆到个人中心后可以通过左侧的菜单查看自己已经提交的作业和未提...

作者：前端之家时间：2021-02-18

ThinkPHP5项目目录规划实践

ThinkPHP5安装后（或者下载后的压缩文件解压后）可以看到下面的目录结构：一般的信息管理...

作者：前端之家时间：2021-02-18

编程分类

PHP Java Java SE Python C#C&C++Ruby VB asp.Net Go Perl netty Django Delphi Jsp .NET Core Spring Flask Springboot SpringMVC Lua Laravel Mybatis Asp Groovy ThinkPHP Yii swoole

最新文章