频道导航

php – 使用str_word_count作为UTF8文本

2020-08-05 PHP 前端之家

前端之家收集整理的这篇文章主要介绍了php – 使用str_word_count作为UTF8文本，前端之家小编觉得挺不错的，现在分享给大家，也给大家做个参考。

@H_403_0@ 我有这个文字：

$text  = "Başka,küskün otomobil kaçtı buraya küskün otomobil neden kaçtı
          kaçtı buraya,oraya KISMEN @here #there J.J.Johanson hep.
          Danny:Where is mom? I don't know! Café est weiß for 2 €uros.
          My 2nd nickname is mike18.";

最近我在用这个.

$a1= array_count_values(str_word_count($text,1,'ÇçÖöŞşİIıĞğÜü@#éß€1234567890'));
arsort($a1);

你可以检查这个小提琴：
http://ideone.com/oVUGYa

但是这个解决方案并不能解决所有的UTF8问题.我不能将whole UTF8 set写入str_word_count作为参数.

所以我创建了这个：

$wordsArray = explode(" ",$text);
foreach ($wordsArray as $k => $w) {
    $wordsArray[$k] = str_replace(array(",","."),"",$w);
}
$wordsArray2 = array_count_values($wordsArray);
arsort($wordsArray2);

输出应该是这样的：

Array (
 [kaçtı] => 3
 [küskün] => 2
 [buraya] => 2
 [@here] => 1
 [#there] => 1
 [Danny] => 1
 [mom] => 1
 [don't] => 1
 [know] => 1
 ...
 ...
)

这很好,但并不涵盖所有的句子问题.例如,我用str_replace删除逗号和点.

例如,这个解决方案不包括这样的话：你好,你好吗？迈克,怎么不会被视为不同的话.

这在str_word_count解决方案中没有涵盖：KISMEN @here #there.在短划线上,不会被考虑.

这不包括J.J.Johanson.虽然这是一个字,它将被视为JJJohanson

问题,感叹号应该被删除.

有没有更好的方法来获得支持UTF8的str_word_count行为？在这个问题的顶部存在的$文本是我的参考.

(如果你能提供一个小提琴你的答案会更好)

因为字数概念在某些语言中不存在或太难,所以你永远不会有一个完美的字数解决方案. UTF8没有关系.

日语和汉语不是空间象征主义语言.他们甚至没有一个静态单词列表,你必须在查找动词和名词前阅读整个句子.

如果要支持多种语言,则需要使用语言特定的tokenizer引擎.您可以研究全文索引,tokenizer,CJK-tokenizer,CJK-analyzer来获取更多信息.

如果您只想支持有限的选定语言,那么只需改进您的正则表达式模式就越来越多.

上一篇：将变量传递给PhpUnit 下一篇：爆炸字符串php

猜你在找的PHP相关文章

Hessian通讯协议【附PHP源代码】

Hessian开源的远程通讯，采用二进制 RPC的协议，基于 HTTP 传输。可以实现PHP调用Java,Pyt...

作者：前端之家时间：2021-02-22

初识Mongodb总结

初识Mongodb的一些总结,在Mac Os X下真实搭建mongodb环境,以及分享个Mongodb管理工具,学习...

作者：前端之家时间：2021-02-22

初识Mongodb之[CURD]-PHP版

边看边操作,这样才能记得牢,实践是检验真理的唯一标准.光看不练假把式,光练不看傻把式,边看...

作者：前端之家时间：2021-02-22

php学习日志 - echo&print

在php中，结果输出一共有两种方式：echo和print，下面将对两种方式做一个比较。 echo与pri...

作者：前端之家时间：2021-02-21

The mbstring extension is missing. Please check your PHP configuration错误及解决方法

在安装好wampServer后，一直没有使用phpMyAdmin,今天用了一下，phpMyAdmin显示错误：The m...

作者：前端之家时间：2021-02-21

解决Windows Live Writer错误:WindowsLive.Writer.CoreServices.HttpRequestHelper的类型初始值设定发生异常

以前用Windows Live Writer写日志都好好的，前几天用写完日志，点击发布，突然弹出意外错误...

作者：前端之家时间：2021-02-21

在PHP项目中使用Standford Moss代码查重系统

Standford Moss 系统是斯坦福大学大名鼎鼎的代码查重系统，它可以查出哪些同学提交的代码是...

作者：前端之家时间：2021-02-18

Windows下PHP安全环境的搭建

笔者一直在Windows环境下搭建PHP的运行环境，大大小小的运行环境用过不少，从开始的WAMP到...

作者：前端之家时间：2021-02-18

ThinkPHP5作业管理系统中处理学生未交作业与已交作业信息

在作业管理系统中，学生登陆到个人中心后可以通过左侧的菜单查看自己已经提交的作业和未提...

作者：前端之家时间：2021-02-18

ThinkPHP5项目目录规划实践

ThinkPHP5安装后（或者下载后的压缩文件解压后）可以看到下面的目录结构：一般的信息管理...

作者：前端之家时间：2021-02-18

编程分类

PHP Java Java SE Python C#C&C++Ruby VB asp.Net Go Perl netty Django Delphi Jsp .NET Core Spring Flask Springboot SpringMVC Lua Laravel Mybatis Asp Groovy ThinkPHP Yii swoole

最新文章