频道导航

php – 如何从网页提取有意义和有用的内容？

2020-07-08 PHP 前端之家

前端之家收集整理的这篇文章主要介绍了php – 如何从网页提取有意义和有用的内容？，前端之家小编觉得挺不错的，现在分享给大家，也给大家做个参考。

我想解析一个网页,并从中提取有意义的内容.有意义的是,我的意思是用户想要在该特定页面中看到的内容(数据不包括广告,横幅,评论等)我想确保当用户保存页面时,他想要的数据阅读被保存,没有别的.

简而言之,我需要构建一个像可读性一样工作的应用程序. (http://www.readability.com)我需要把这个有用的网页内容存储在一个单独的文件中.我真的不知道该怎么做.

我不想使用API,需要我连接到互联网并从服务器获取数据,因为数据提取过程需要离线完成.

我可以想到两种方法：

>使用机器学习算法(如：http://ai-depot.com/articles/the-easy-way-to-extract-useful-text-from-arbitrary-html/)
>开发一个可以令人满意地从网页上清除所有杂乱的网页刮刀.

有现有的工具吗？我遇到了cookpipe图书馆(http://code.google.com/p/boilerpipe/),但没有使用它.有人用吗这是否会令人满意的结果？
有没有其他的工具,特别是用PHP或Python编写的这样的网页刮刮？

如果我需要建立自己的工具来做这件事,那么你们建议怎么做呢？

由于我需要在开始解析之前清理杂乱或不完整的HTML,所以我会使用像Tidy(http://www.w3.org/People/Raggett/tidy/)或Beautiful Soup(http://www.crummy.com/software/BeautifulSoup/bs4/doc/)这样的工具来完成这项工作.

但是,我不知道如何在这一步之后提取内容.

PS.我是一个业余爱好,如果准备好使用开源工具,可以很容易的集成到我将用PHP或Python编写的代码中.
或者如果我必须编写自己的代码,我很乐意获得指导,谁做完了这样的工作之前！

上一篇：php – 覆盖谷歌recaptcha css使其下一篇：PHP(Apache)将HTTP 429等人默认转换

猜你在找的PHP相关文章

Hessian通讯协议【附PHP源代码】

Hessian开源的远程通讯，采用二进制 RPC的协议，基于 HTTP 传输。可以实现PHP调用Java,Pyt...

作者：前端之家时间：2021-02-22

初识Mongodb总结

初识Mongodb的一些总结,在Mac Os X下真实搭建mongodb环境,以及分享个Mongodb管理工具,学习...

作者：前端之家时间：2021-02-22

初识Mongodb之[CURD]-PHP版

边看边操作,这样才能记得牢,实践是检验真理的唯一标准.光看不练假把式,光练不看傻把式,边看...

作者：前端之家时间：2021-02-22

php学习日志 - echo&print

在php中，结果输出一共有两种方式：echo和print，下面将对两种方式做一个比较。 echo与pri...

作者：前端之家时间：2021-02-21

The mbstring extension is missing. Please check your PHP configuration错误及解决方法

在安装好wampServer后，一直没有使用phpMyAdmin,今天用了一下，phpMyAdmin显示错误：The m...

作者：前端之家时间：2021-02-21

解决Windows Live Writer错误:WindowsLive.Writer.CoreServices.HttpRequestHelper的类型初始值设定发生异常

以前用Windows Live Writer写日志都好好的，前几天用写完日志，点击发布，突然弹出意外错误...

作者：前端之家时间：2021-02-21

在PHP项目中使用Standford Moss代码查重系统

Standford Moss 系统是斯坦福大学大名鼎鼎的代码查重系统，它可以查出哪些同学提交的代码是...

作者：前端之家时间：2021-02-18

Windows下PHP安全环境的搭建

笔者一直在Windows环境下搭建PHP的运行环境，大大小小的运行环境用过不少，从开始的WAMP到...

作者：前端之家时间：2021-02-18

ThinkPHP5作业管理系统中处理学生未交作业与已交作业信息

在作业管理系统中，学生登陆到个人中心后可以通过左侧的菜单查看自己已经提交的作业和未提...

作者：前端之家时间：2021-02-18

ThinkPHP5项目目录规划实践

ThinkPHP5安装后（或者下载后的压缩文件解压后）可以看到下面的目录结构：一般的信息管理...

作者：前端之家时间：2021-02-18

编程分类

PHP Java Java SE Python C#C&C++Ruby VB asp.Net Go Perl netty Django Delphi Jsp .NET Core Spring Flask Springboot SpringMVC Lua Laravel Mybatis Asp Groovy ThinkPHP Yii swoole

最新文章