PHP实现机器学习之朴素贝叶斯算法详解

本文实例讲述了PHP实现机器学习之朴素贝叶斯算法。分享给大家供大家参考，具体如下：

机器学习已经在我们的生活中变得随处可见了。比如从你在家的时候温控器开始工作到智能汽车以及我们口袋中的智能手机。机器学习看上去已经无处不在并且是一个非常值得探索的领域。但是什么是机器学习呢？通常来说，机器学习就是让系统不断的学习并且对新的问题进行预测。从简单的预测购物商品到复杂的数字助理预测。

在这篇文章我将会使用朴素贝叶斯算法Clasifier作为一个类来介绍。这是一个简单易于实施的算法，并且可给出满意的结果。但是这个算法是需要一点统计学的知识去理解的。在文章的最后部分你可以看到一些实例代码，甚至自己去尝试着自己做一下你的机器学习。

起步

那么，这个Classifier是要用来实现什么功能呢？其实它主要是用来判断给定的语句是积极地还是消极的。比如，“Symfony is the best”是一个积极的语句，“No Symfony is bad”是一个消极的语句。所以在给定了一个语句之后，我想让这个Classifier在我不给定一个新的规则的情况就返回一个语句类型。

我给Classifier命名了一个相同名称的类，并且包含一个guess方法。这个方法接受一个语句的输入，并且会返回这个语句是积极的还是消极的。这个类就像下面这样：

PHP;"> class Classifier { public function guess($statement) {} }

我更喜欢使用枚举类型的类而不是字符串作为我的返回值。我将这个枚举类型的类命名为Type，并且包含两个常量：一个POSITIVE,一个NEGATIVE。这两个常量将会当做guess方法的返回值。

PHP;"> class Type { const POSITIVE = 'positive'; const NEGATIVE = 'negative'; }

初始化工作已经完成，接下来就是要编写我们的算法进行预测了。

朴素贝叶斯

朴素贝叶斯算法是基于一个训练集合工作的，根据这个训练集从而做出相应的预测。这个算法运用了简单的统计学以及一点数学去进行结果的计算。比如像下面四个文本组成的训练集合：

Box-sizing: border-Box; padding-bottom: 0px; line-height: 27px; widows: 2; text-transform: none; background-color: rgb(255,255,255); font-style: normal; text-indent: 0px; margin: 0px; padding-left: 0px; width: 1020px; padding-right: 0px; font-family: Arial,Verdana,微软雅黑,"Lucida Grande","Lucida Sans Unicode",Helvetica,sans-serif; word-wrap: break-word; white-space: normal; orphans: 2; letter-spacing: normal; color: rgb(102,102,102); font-size: 16px; overflow: auto; font-weight: normal; word-spacing: 0px; padding-top: 0px; font-variant-ligatures: normal; font-variant-caps: normal; -webkit-text-stroke-width: 0px"> Box-sizing: border-Box; line-height: 25px; background-color: rgb(51,51,51); border-spacing: 0px; border-collapse: collapse; font-family: "Helvetica Neue",Arial,sans-serif; max-width: 100%; word-wrap: break-word; empty-cells: show; color: rgb(238,238,238)"> Box-sizing: border-Box; word-wrap: break-word"> Box-sizing: border-Box; word-wrap: break-word; vertical-align: top !important"> Box-sizing: border-Box; word-wrap: break-word"> Box-sizing: border-Box; word-wrap: break-word; vertical-align: top !important">

Box-sizing: border-Box; border-bottom: rgb(85,85,85) 1px solid; text-align: left; border-left: rgb(85,85) 1px solid; padding-bottom: 5px; padding-left: 10px; padding-right: 10px; word-wrap: break-word; border-top: rgb(85,85) 1px solid; font-weight: normal; border-right: rgb(85,85) 1px solid; padding-top: 5px">Box-sizing: border-Box; padding-bottom: 0px; margin: 0px; padding-left: 0px; padding-right: 0px; font-size: 18px; font-weight: 400; padding-top: 0px">语句Box-sizing: border-Box; border-bottom: rgb(85,85) 1px solid; text-align: center; border-left: rgb(85,85) 1px solid; padding-top: 5px">Box-sizing: border-Box; padding-bottom: 0px; margin: 0px; padding-left: 0px; padding-right: 0px; font-size: 18px; font-weight: 400; padding-top: 0px">类型
Box-sizing: border-Box; border-bottom: rgb(85,85) 1px solid; border-left: rgb(85,85) 1px solid; border-right: rgb(85,85) 1px solid; padding-top: 5px">Box-sizing: border-Box; padding-bottom: 0px; margin: 0px; padding-left: 0px; padding-right: 0px; font-size: 18px; font-weight: 400; padding-top: 0px">Symfony is the bestBox-sizing: border-Box; border-bottom: rgb(85,85) 1px solid; padding-top: 5px">Box-sizing: border-Box; padding-bottom: 0px; margin: 0px; padding-left: 0px; padding-right: 0px; word-wrap: break-word; color: rgb(228,184,112); font-weight: 400; padding-top: 0px">Box-sizing: border-Box; padding-bottom: 0px; margin: 0px; padding-left: 0px; padding-right: 0px; font-size: 18px; font-weight: 400; padding-top: 0px">PositiveBox-sizing: border-Box; background-color: rgb(68,68,68); word-wrap: break-word; vertical-align: top !important">	Box-sizing: border-Box; border-bottom: rgb(85,85) 1px solid; padding-top: 5px">Box-sizing: border-Box; padding-bottom: 0px; margin: 0px; padding-left: 0px; padding-right: 0px; font-size: 18px; font-weight: 400; padding-top: 0px">PHPStorm is greatBox-sizing: border-Box; border-bottom: rgb(85,112); font-weight: 400; padding-top: 0px">Box-sizing: border-Box; padding-bottom: 0px; margin: 0px; padding-left: 0px; padding-right: 0px; font-size: 18px; font-weight: 400; padding-top: 0px">PositiveBox-sizing: border-Box; word-wrap: break-word; vertical-align: top !important">	Box-sizing: border-Box; border-bottom: rgb(85,85) 1px solid; padding-top: 5px">Box-sizing: border-Box; padding-bottom: 0px; margin: 0px; padding-left: 0px; padding-right: 0px; font-size: 18px; font-weight: 400; padding-top: 0px">Iltar complains a lotBox-sizing: border-Box; border-bottom: rgb(85,112); font-weight: 400; padding-top: 0px">Box-sizing: border-Box; padding-bottom: 0px; margin: 0px; padding-left: 0px; padding-right: 0px; font-size: 18px; font-weight: 400; padding-top: 0px">NegativeBox-sizing: border-Box; background-color: rgb(68,85) 1px solid; padding-top: 5px">Box-sizing: border-Box; padding-bottom: 0px; margin: 0px; padding-left: 0px; padding-right: 0px; font-size: 18px; font-weight: 400; padding-top: 0px">No Symfony is badBox-sizing: border-Box; border-bottom: rgb(85,112); font-weight: 400; padding-top: 0px">Box-sizing: border-Box; padding-bottom: 0px; margin: 0px; padding-left: 0px; padding-right: 0px; font-size: 18px; font-weight: 400; padding-top: 0px">Negative 如果给定语句是“Symfony is the best”，那么你可以说这个语句是积极地。你平常也会根据之前学习到的相应知识做出对应的决定，朴素贝叶斯算法也是同样的道理：它根据之前的训练集来决定哪一个类型更加相近。学习在这个算法正式工作之前，它需要大量的历史信息作为训练集。它需要知道两件事：每一个类型对应的词产生了多少次和每一个语句对应的类型是什么。我们在实施的时候会将这两种信息存储在两个数组当中。一个数组包含每一类型的词语统计，另一个数组包含每一个类型的语句统计。所有的其他信息都可以从这两个数组中聚合。代码就像下面的一样： getWords($statement); foreach ($words as $word) { if (!isset($this->words[$type][$word])) { $this->words[$type][$word] = 0; } $this->words[$type][$word]++; // 增加类型的词语统计 } $this->documents[$type]++; // 增加类型的语句统计 } 有了这个集合以后，现在这个算法就可以根据历史数据接受预测训练了。定义为了解释这个算法是如何工作的，几个定义是必要的。首先，让我们定义一下输入的语句是给定类型中的一个的概率。这个将会表示为P（Type）。它是以已知类型的数据的类型作为分子，还有整个训练集的数据数量作为分母来得出的。一个数据就是整个训练集中的一个。到现在为止，这个方法可以将会命名为totalP，像下面这样： documents[$type] + 1) / (array_sum($this->documents) + 1); } 请注意，在这里分子和分母都加了1。这是为了避免分子和分母都为0的情况。根据上面的训练集的例子，积极和消极的类型都会得出0.6的概率。每中类型的数据都是2个，一共是4个数据所以就是（2+1）/（4+1）。第二个要定义的是对于给定的一个词是属于哪个确定类型的概率。这个我们定义成P(word,Type)。首先我们要得到一个词在训练集中给出确定类型出现的次数，然后用这个结果来除以整个给定类型数据的词数。这个方法我们定义为p： words[$type][$word]) ? $this->words[$type][$word] : 0; return ($count + 1) / (array_sum($this->words[$type]) + 1); } 在本次的训练集中，“is”的是积极类型的概率为0.375。这个词在整个积极的数据中的7个词中占了两次，所以结果就是（2+1）/（7+1）。最后，这个算法应该只关心关键词而忽略其他的因素。一个简单的方法就是将给定的字符串中的单词分离出来： PHP;"> function getWords($string) { return preg_split('/\s+/',preg_replace('/[^A-Za-z0-9\s]/','',strtolower($string))); } 准备工作都做好了，开始真正实施我们的计划吧！预测为了预测语句的类型，这个算法应该计算所给定语句的两个类型的概率。像上面一样，我们定义一个P（Type,sentence）。得出概率高的类型将会是Classifier类中算法返回的结果。为了计算P（Type,sentence）,算法当中将用到贝叶斯定理。算法像这样被定义：P（Type,sentence）= P（Type）* P（sentence,Type）/ P（sentence）。这意味着给定语句的类型概率和给定类型语句概率除以语句的概率的结果是相同的。那么算法在计算每一个相同语句的P（Tyoe,sentence），P（sentence）是保持一样的。这意味着算法就可以省略其他因素，我们只需要关心最高的概率而不是实际的值。计算就像这样：P（Type,sentence） = P（Type）* P（sentence,Type）。最后，为了计算P（sentence,Type），我们可以为语句中的每个词添加一条链式规则。所以在一条语句中如果有n个词的话，它将会和P（word_1,Type）* P（word_2,Type）* P（word_3,Type）* .....P（word_n,Type）是一样的。每一个词计算结果的概率使用了我们前面看到的定义。好了，所有的都说完了，是时候在PHP中实际操作一下了： getWords($statement); // 得到单词 $best_likelihood = 0; $best_type = null; foreach ($this->types as $type) { $likelihood = $this->pTotal($type); //计算 P(Type) foreach ($words as $word) { $likelihood = $this->p($word,$type); // 计算 P(word,Type) } if ($likelihood > $best_likelihood) { $best_likelihood = $likelihood; $best_type = $type; } } return $best_type; } 这就是所有的工作，现在算法可以预测语句的类型了。你要做的就是让你的算法开始学习： learn('Symfony is the best',Type::POSITIVE); $classifier->learn('PHPStorm is great',Type::POSITIVE); $classifier->learn('Iltar complains a lot',Type::NEGATIVE); $classifier->learn('No Symfony is bad',Type::NEGATIVE); var_dump($classifier->guess('Symfony is great')); // string(8) "positive" var_dump($classifier->guess('I complain a lot')); // string(8) "negative" 所有的代码我已经上传到了GIT上， github上完整php代码如下： [],Type::NEGATIVE => []]; private $documents = [Type::POSITIVE => 0,Type::NEGATIVE => 0]; public function guess($statement) { $words = $this->getWords($statement); // get the words $best_likelihood = 0; $best_type = null; foreach ($this->types as $type) { $likelihood = $this->pTotal($type); // calculate P(Type) foreach ($words as $word) { $likelihood *= $this->p($word,$type); // calculate P(word,Type) } if ($likelihood > $best_likelihood) { $best_likelihood = $likelihood; $best_type = $type; } } return $best_type; } public function learn($statement,$type) { $words = $this->getWords($statement); foreach ($words as $word) { if (!isset($this->words[$type][$word])) { $this->words[$type][$word] = 0; } $this->words[$type][$word]++; // increment the word count for the type } $this->documents[$type]++; // increment the document count for the type } public function p($word,$type) { $count = 0; if (isset($this->words[$type][$word])) { $count = $this->words[$type][$word]; } return ($count + 1) / (array_sum($this->words[$type]) + 1); } public function pTotal($type) { return ($this->documents[$type] + 1) / (array_sum($this->documents) + 1); } public function getWords($string) { return preg_split('/\s+/',strtolower($string))); } } $classifier = new Classifier(); $classifier->learn('Symfony is the best',Type::NEGATIVE); var_dump($classifier->guess('Symfony is great')); // string(8) "positive" var_dump($classifier->guess('I complain a lot')); // string(8) "negative" 结束语尽管我们只进行了很少的训练，但是算法还是应该能给出相对精确的结果。在真实环境，你可以让机器学习成百上千的记录，这样就可以给出更精准的结果。你可以下载查看这篇文章（英文）：。而且，朴素贝叶斯不仅仅可以运用到文本类的应用。希望通过这篇文章可以拉近你和机器学习的一点点距离。原文地址：更多关于PHP相关内容感兴趣的读者可查看本站专题：《》、《》、《》、《》、《》及《PHP数学运算技巧总结》希望本文所述对大家PHP程序设计有所帮助。 PHP 朴素贝叶斯机器学习算法算法算法上一篇：PHP中利用Telegram的接口实现免费的下一篇：PHP实现单链表翻转操作示例猜你在找的PHP相关文章 Hessian通讯协议【附PHP源代码】 Hessian开源的远程通讯，采用二进制 RPC的协议，基于 HTTP 传输。可以实现PHP调用Java,Pyt... 作者：前端之家时间：2021-02-22 初识Mongodb总结初识Mongodb的一些总结,在Mac Os X下真实搭建mongodb环境,以及分享个Mongodb管理工具,学习... 作者：前端之家时间：2021-02-22 初识Mongodb之[CURD]-PHP版边看边操作,这样才能记得牢,实践是检验真理的唯一标准.光看不练假把式,光练不看傻把式,边看... 作者：前端之家时间：2021-02-22 php学习日志 - echo&print 在php中，结果输出一共有两种方式：echo和print，下面将对两种方式做一个比较。 echo与pri... 作者：前端之家时间：2021-02-21 The mbstring extension is missing. Please check your PHP configuration错误及解决方法在安装好wampServer后，一直没有使用phpMyAdmin,今天用了一下，phpMyAdmin显示错误：The m... 作者：前端之家时间：2021-02-21 解决Windows Live Writer错误:WindowsLive.Writer.CoreServices.HttpRequestHelper的类型初始值设定发生异常以前用Windows Live Writer写日志都好好的，前几天用写完日志，点击发布，突然弹出意外错误... 作者：前端之家时间：2021-02-21 在PHP项目中使用Standford Moss代码查重系统 Standford Moss 系统是斯坦福大学大名鼎鼎的代码查重系统，它可以查出哪些同学提交的代码是... 作者：前端之家时间：2021-02-18 Windows下PHP安全环境的搭建笔者一直在Windows环境下搭建PHP的运行环境，大大小小的运行环境用过不少，从开始的WAMP到... 作者：前端之家时间：2021-02-18 ThinkPHP5作业管理系统中处理学生未交作业与已交作业信息在作业管理系统中，学生登陆到个人中心后可以通过左侧的菜单查看自己已经提交的作业和未提... 作者：前端之家时间：2021-02-18 ThinkPHP5项目目录规划实践 ThinkPHP5安装后（或者下载后的压缩文件解压后）可以看到下面的目录结构：一般的信息管理... 作者：前端之家时间：2021-02-18 编程分类 PHP Java Java SE Python C#C&C++Ruby VB asp.Net Go Perl netty Django Delphi Jsp .NET Core Spring Flask Springboot SpringMVC Lua Laravel Mybatis Asp Groovy ThinkPHP Yii swoole 最新文章 • Hessian通讯协议【附PHP源 • 初识Mongodb总结 • 初识Mongodb之[CURD]-PHP版 • php学习日志 - echo&p • The mbstring extension i • php学习日志 - php变量 • 解决Windows Live Writer错 • 在PHP项目中使用Standford • Windows下PHP安全环境的搭 • ThinkPHP5作业管理系统中处热门标签更多 ► 文件时间 pythonm 相等性 PHP Warning 时间问题问题解决 pcntl_signal 采样点 wav模块动态文本调用频率限制对外暴露多个访问请求更新数据表模型结构 type()方法比较速度手写体 sobel算子保存模型 Image类 nn.Conv2d pytorch1.0 kaggle DCGAN 交并比 range()用法打印模型反卷积卷积最近更新 · 小米手机重装系统价格多少?专业维修服务详解02-05 · 手把手教你重装电脑系统,让你的电脑焕然一新!02-05 · 教你一步步重装XP系统,让你的电脑重获新生02-05 · 从备份到上网:一步步教你重装电脑系统02-05 · Sony笔记本电脑一键重装系统详细图文教程02-05 · Lenovo笔记本重装系统超详细教程，小白也能轻松...02-05 · 联想笔记本一键重装Win10系统详细教程02-05 · 电脑系统故障无需愁,专业维修店帮你重装旧貌换新...02-05 · 联想笔记本一键重装Win10系统图文教程，小白也能...02-05 · 笔记本重装系统图文教程：从光盘启动一步到位02-05 好站推荐菜鸟教程编程之家前端之家商务合作联系我们 Copyright © 2019 前端之家. 当前版本 V7.0.16 前端之家版权所有闽ICP备13020303号-10

PHP实现机器学习之朴素贝叶斯算法详解

朴素贝叶斯

猜你在找的PHP相关文章