频道导航

php utf-8转unicode的函数

2018-12-30 PHP 前端之家

前端之家收集整理的这篇文章主要介绍了php utf-8转unicode的函数，前端之家小编觉得挺不错的，现在分享给大家，也给大家做个参考。

UTF编码
UTF-8就是以8位为单元对UCS进行编码。从UCS-2到UTF-8的编码方式如下：
UCS-2编码(16进制)
UTF-8 字节流(二进制)
0000 - 007F
0xxxxxxx
0080 - 07FF
110xxxxx 10xxxxxx
0800 - FFFF
1110xxxx 10xxxxxx 10xxxxxx
　　例如“汉”字的Unicode编码是6C49。6C49在0800-FFFF之间，所以肯定要用3字节模板了：1110xxxx 10xxxxxx 10xxxxxx。将6C49写成二进制是：0110 110001 001001，用这个比特流依次代替模板中的x，得到：11100110 10110001 10001001，即E6 B1 89。
终于将unicode和utf8互转搞定。
如果utf-8编码的字符ch是3个字节。xx yy zz
将xx和1F AND 操作得到 a
将yy和7F AND 操作得到 b
将zz和7F AND 操作得到 c
(64a+b)*64+c = ch(unicode编码)
echo.PHP没什么。就是几个函数。
");
//写入unicode文件
$ucs2data = utf8ToUnicode($data,"little");
$endian = chr(0xFE).chr(0xFF);
$endian = chr(0xFF).chr(0xFE);
$rt = file_put_contents ( "ucs2.txt",$endian.$ucs2data);
//19:32,utf8toUnicode函数ok.
//20:09。发现little endian 和big endian问题。并解决。
//big endian 方式存入的unicode字符串，ue和editplus均不能
//识别。只有notepad正常识别。
$rt = file_put_contents ( "usc2ys_data.txt",$ucs2_ysdata);
//写入utf8文件
$utf8data = unicodeToUtf8($ucs2data); // 20:52. 将字串转回utf8码ok.
$rt = file_put_contents ( "utf8.txt",$utf8data);
echo(urlencode($utf8data));echo("");
$esc = utf8Escape($data);
echot($esc);
$esc = PHPEscape($data);
echot($esc);
$unesc = PHPUnescape($esc);
echot($unesc);
/
此函数将utf8编码字串转为unicode编码字符串
参数 str,utf8编码的字符串。
参数 order,存放数据格式，是big endian还是little endian，默认的unicode存放次序是little.
如："大"的unicode码是 5927。little方式存放即为：27 59 。big方式则顺序不变：59 27.
little 存放格式文件的开头均需有FF FE。big 存放方式的文件开头为 FE FF。否则。将会产生严重混乱。
本函数只转换字符，不负责增加头部。
iconv转换过来的字符串是 big endian存放的。
返回 ucs2string,转换过的字符串。
感谢唠叨（xuzuning）
/
function utf8ToUnicode($str,$order="little")
{
$ucs2string ="";
$n=strlen($str);
for ($i=0;$i0x80) { //110xxxxx 10xxxxxx
$a = (ord($str[$i]) & 0x3F )0x80 && ord($str[$i+2])>0x80) { //1110xxxx 10xxxxxx 10xxxxxx
$a = (ord($str[$i]) & 0x1F)转为utf8编码字符串
参数 str,unicode编码的字符串。
参数 order,unicode字串的存放次序，为big endian还是little endian.
返回 utf8string,转换过的字符串。

/
function unicodeToUtf8($str,$order="little")
{
$utf8string ="";
$n=strlen($str);
for ($i=0;$i转回来。
$i++; //两个字节表示一个unicode字符。
$c = "";
if($val utf8string .= $c;
}
return $utf8string;
} // end func /
将utf8编码的字符串编码为unicode 码型，等同escape
之所以只接受utf8码，因为只有utf8码和unicode之间有公式转换，其他的编码都得查码表来转换。
不知道查找utf8码的正则是否完全正确。迷茫ing
虽然调用utf2ucs对每个字符进行码值计算。效率过低。然而，代码清晰，要是把那个计算过程嵌入。
代码就不太容易阅读了。
/
function utf8Escape($str) {
preg_match_all("/[＼xC0-＼xE0].|[＼xE0-＼xF0]..|[＼x01-＼x7f]+/",$str,$r);
//prt($r);
$ar = $r[0];
foreach($ar as $k=>$v) {
$ord = ord($v[0]);
if( $ordutf8码
$ar[$k] = "%u".utf2ucs($v);
}
elseif ($ordutf8码
$ar[$k] = "%u".utf2ucs($v);
}
}//foreach
return join("",$ar);
}
/

把utf8编码字符转为ucs-2编码
参数 utf8编码的字符。
返回该字符的unicode码值。知道了码值，你就能使用chr将字符弄出来了。

原理：unicode转为utf-8码的算法是。头部固定位或。
该过程的逆向算法就是这个函数了，头部固定位反位和。
/
function utf2ucs($str){
$n=strlen($str);
if ($n=3) {
$highCode = ord($str[0]);
$midCode = ord($str[1]);
$lowCode = ord($str[2]);
$a = 0x1F & $highCode;
$b = 0x7F & $midCode;
$c = 0x7F & $lowCode;
$ucsCode = (64$a + $b)64 + $c;
}
elseif ($n==2) {
$highCode = ord($str[0]);
$lowCode = ord($str[1]);
$a = 0x3F & $highCode; //0x3F是0xC0的补数
$b = 0x7F & $lowCode; //0x7F是0x80的补数
$ucsCode = 64$a + $b;
}
elseif($n==1) {
$ucscode = ord($str);
}
return dechex($ucsCode);
} /
用处：此函数用来逆转javascript的escape函数编码后的字符。
关键的正则查找我不知道有没有问题.
参数：javascript编码过的字符串。
如：unicodeToUtf8("%u5927")= 大
2005-12-10

/
function PHPUnescape($escstr){
preg_matchall("/%u[0-9A-Za-z]{4}|%.{2}|[0-9a-zA-Z.+-]+/",$escstr,$matches); //prt($matches);
$ar = &$matches[0];
$c = "";
foreach($ar as $val){
if (substr($val,1)!="%") { //如果是字母数字+-.的ascii码
$c .=$val;
}
elseif (substr($val,1,1)!="u") { //如果是非字母数字+-.的ascii码
$x = hexdec(substr($val,2));
$c .=chr($x);
}
else { //如果是大于0xFF的码
$val = intval(substr($val,2),16);
if($val %u".bin2hex( iconv( 'gbk',"UCS-2",$chars[$i].$chars[$i+1] ) );
$i++;
}
}//foreach
return $ar;
}
?>c#实现代码
/
utf-8转换成unicode
@authorfanhui
2007-3-15
@paraminStr
@return
/
publicstaticStringutf8ToUnicode(StringinStr){
char[]myBuffer=inStr.tocharArray(); StringBuffersb=newStringBuffer();
for(inti=0;i<inStr.length();i++){
UnicodeBlockub=UnicodeBlock.of(myBuffer[i]);
if(ub==UnicodeBlock.BASIC_LATIN){
//英文及数字等
sb.append(myBuffer[i]);
}elseif(ub==UnicodeBlock.HALFWIDTH_AND_FULLWIDTH_FORMS){
//全角半角字符
intj=(int)myBuffer[i]-65248;
sb.append((char)j);
}else{
//汉字
shorts=(short)myBuffer[i];
StringhexS=Integer.toHexString(s);
Stringunicode="\u"+hexS;
sb.append(unicode.toLowerCase());
}
}
returnsb.toString();
} /
unicode转换成utf-8
@authorfanhui
2007-3-15
@paramtheString
@return
/
publicstaticStringunicodeToUtf8(StringtheString){
charaChar;
intlen=theString.length();
StringBufferoutBuffer=newStringBuffer(len);
for(intx=0;x<len;){
aChar=theString.charAt(x++);
if(aChar=='\'){
aChar=theString.charAt(x++);
if(aChar=='u'){
//Readthexxxx
intvalue=0;
for(inti=0;i<4;i++){
aChar=theString.charAt(x++);
switch(aChar){
case'0':
case'1':
case'2':
case'3':
case'4':
case'5':
case'6':
case'7':
case'8':
case'9':
value=(value<<4)+aChar-'0';
break;
case'a':
case'b':
case'c':
case'd':
case'e':
case'f':
value=(value<<4)+10+aChar-'a';
break;
case'A':
case'B':
case'C':
case'D':
case'E':
case'F':
value=(value<<4)+10+aChar-'A';
break;
default:
thrownewIllegalArgumentException(
"Malformed\uxxxxencoding.");
}
}
outBuffer.append((char)value);
}else{
if(aChar=='t')
aChar='\t';
elseif(aChar=='r')
aChar='\r';
elseif(aChar=='n')
aChar='\n';
elseif(aChar=='f')
aChar='\f';
outBuffer.append(aChar);
}
}else
outBuffer.append(aChar);
}
returnoutBuffer.toString();
}

上一篇：用PHP伪造referer突破网盘禁止外连下一篇：php代码出现错误分析详解

猜你在找的PHP相关文章

Hessian通讯协议【附PHP源代码】

Hessian开源的远程通讯，采用二进制 RPC的协议，基于 HTTP 传输。可以实现PHP调用Java,Pyt...

作者：前端之家时间：2021-02-22

初识Mongodb总结

初识Mongodb的一些总结,在Mac Os X下真实搭建mongodb环境,以及分享个Mongodb管理工具,学习...

作者：前端之家时间：2021-02-22

初识Mongodb之[CURD]-PHP版

边看边操作,这样才能记得牢,实践是检验真理的唯一标准.光看不练假把式,光练不看傻把式,边看...

作者：前端之家时间：2021-02-22

php学习日志 - echo&print

在php中，结果输出一共有两种方式：echo和print，下面将对两种方式做一个比较。 echo与pri...

作者：前端之家时间：2021-02-21

The mbstring extension is missing. Please check your PHP configuration错误及解决方法

在安装好wampServer后，一直没有使用phpMyAdmin,今天用了一下，phpMyAdmin显示错误：The m...

作者：前端之家时间：2021-02-21

解决Windows Live Writer错误:WindowsLive.Writer.CoreServices.HttpRequestHelper的类型初始值设定发生异常

以前用Windows Live Writer写日志都好好的，前几天用写完日志，点击发布，突然弹出意外错误...

作者：前端之家时间：2021-02-21

在PHP项目中使用Standford Moss代码查重系统

Standford Moss 系统是斯坦福大学大名鼎鼎的代码查重系统，它可以查出哪些同学提交的代码是...

作者：前端之家时间：2021-02-18

Windows下PHP安全环境的搭建

笔者一直在Windows环境下搭建PHP的运行环境，大大小小的运行环境用过不少，从开始的WAMP到...

作者：前端之家时间：2021-02-18

ThinkPHP5作业管理系统中处理学生未交作业与已交作业信息

在作业管理系统中，学生登陆到个人中心后可以通过左侧的菜单查看自己已经提交的作业和未提...

作者：前端之家时间：2021-02-18

ThinkPHP5项目目录规划实践

ThinkPHP5安装后（或者下载后的压缩文件解压后）可以看到下面的目录结构：一般的信息管理...

作者：前端之家时间：2021-02-18

编程分类

PHP Java Java SE Python C#C&C++Ruby VB asp.Net Go Perl netty Django Delphi Jsp .NET Core Spring Flask Springboot SpringMVC Lua Laravel Mybatis Asp Groovy ThinkPHP Yii swoole

最新文章