切换导航
首页
技术问答
编程语言
前端开发
移动开发
开发工具
程序设计
行业应用
CMS系统
服务器
频道导航
▸ PHP
▸ Java
▸ Java SE
▸ Python
▸ C#
▸ C&C++
▸ Ruby
▸ VB
▸ asp.Net
▸ Go
▸ Perl
▸ netty
▸ Django
▸ Delphi
▸ Jsp
▸ .NET Core
▸ Spring
▸ Flask
▸ Springboot
▸ SpringMVC
▸ Lua
▸ Laravel
▸ Mybatis
▸ Asp
▸ Groovy
▸ ThinkPHP
▸ Yii
▸ swoole
▸ HTML
▸ HTML5
▸ JavaScript
▸ CSS
▸ jQuery
▸ Bootstrap
▸ Angularjs
▸ TypeScript
▸ Vue
▸ Dojo
▸ Json
▸ Electron
▸ Node.js
▸ extjs
▸ Express
▸ XML
▸ ES6
▸ Ajax
▸ Flash
▸ Unity
▸ React
▸ Flex
▸ Ant Design
▸ Web前端
▸ 微信小程序
▸ 微信公众号
▸ iOS
▸ Android
▸ Swift
▸ Hybrid
▸ Cocos2d-x
▸ Flutter
▸ Xcode
▸ Silverlight
▸ cocoa
▸ Cordova
前端之家
PHP
php实现的一个很好用HTML解析器类可用于采集数据
php实现的一个很好用HTML解析器类可用于采集数据
2018-12-30
PHP
前端之家
前端之家
收集整理的这篇文章主要介绍了
php实现的一个很好用HTML解析器类可用于采集数据
,
前端之家
小编觉得挺不错的,现在分享给大家,也给大家做个参考。
<div class="codetitle">
@L_
502
_0@
代码
如下:
<div class="codebody" id="code85400">
<?
PHP
$oldSetting = libxml_use_internal_errors( true );
libxml_clear_errors();
/*
-+-----------------------------------
|
PHP
5 Framework - 2011
|Web Site: www.iblue.cc
|E-mail: mejinke@gmail.com
|Date: 2012-10-12
-+-----------------------------------
@desc HTML解析器
@author jingke
/
class XF_HtmlDom
{
private $_xpath = null;
private $_nodePath = ''; public function
construct($xpath = null,$nodePath = '')
{
$this->_xpath = $xpath;
$this->_nodePath = $nodePath;
} public function loadHtml($url)
{
ini_set('user_agent','Mozilla/5.0 (Linux; U; Android 2.1; en-us; Nexus One Build/ERD62) AppleWebKit/530.17 (KHTML,like Gecko) Version/4.0 Mobile Safari/530.17 –Nexus');
$content = '';
if(strpos(strtolower($url),'http')===false)
{
$content = file_get_contents($url);
}
else
{
$ch = curl_init();
$user_agent = "Baiduspider+(+
http://www.baidu.com/search/spider.htm
)";
$user_agent1='Mozilla/5.0 (Windows NT 5.1; rv:6.0) Gecko/20100101 Firefox/6.0';
curl_setopt($ch,CURLOPT_URL,$url);
curl_setopt($ch,CURLOPT_HEADER,false);
curl_setopt($ch,CURLOPT_RETURNTRANSFER,1);
curl_setopt($ch,CURLOPT_REFERER,CURLOPT_USERAGENT,$user_agent1);
curl_setopt($ch,CURLOPT_FOLLOWLOCATION,1);
$content =curl_exec($ch);
curl_close($ch);
} $html = new DOMDocument();
$html->loadHtml($content);
$this->_xpath = new DOMXPath( $html );
//return $this; } public function find($query,$index = null)
{
if($this->_nodePath == '')
$this->_nodePath = '//';
else
$this->_nodePath .= '/'; $nodes = $this->_xpath->query($this->_nodePath.$query);
//echo $nodes->item(0)->getNodePath();exit;
if ($index == null && !is_numeric($index))
{
$tmp = array();
foreach ($nodes as $node)
{
$tmp[] = new XF_HtmlDom($this->_xpath,$node->getNodePath());
}
return $tmp;
}
return new XF_HtmlDom($this->_xpath,$this->_xpath->query($this->_nodePath.$query)->item($index)->getNodePath());
} /
获取
内容
/
public function text()
{
if ($this->_nodePath != '' && $this->_xpath != null )
return $this->_xpath->query($this->_nodePath)->item(0)->textContent;
else
return false;
} /
获取
属性
值
/
public function getAttribute($name)
{
if ($this->_nodePath != '' && $this->_xpath != null )
return $this->_xpath->query($this->_nodePath)->item(0)->getAttribute($name);
else
return false;
} public function
get($name)
{
if($name == 'innertext')
return $this->text();
else
return $this->getAttribute($name);
}
}
$xp = new xf_HtmlDom();
$xp->loadHtml('
http://www.aizhan.com/siteall/www.opendir.cn/
');
$rows = $xp->find("td[@id='baidu']/a",0)->innertext;
print_r($rows);
HTML解析器
上一篇:PHP加密函数 Javascript/Js 解密函
下一篇:PHP生成不同颜色、不同大小的tag标
猜你在找的PHP相关文章
Hessian通讯协议【附PHP源代码】
Hessian开源的远程通讯,采用二进制 RPC的协议,基于 HTTP 传输。可以实现PHP调用Java,Pyt...
作者:前端之家 时间:2021-02-22
初识Mongodb总结
初识Mongodb的一些总结,在Mac Os X下真实搭建mongodb环境,以及分享个Mongodb管理工具,学习...
作者:前端之家 时间:2021-02-22
初识Mongodb之[CURD]-PHP版
边看边操作,这样才能记得牢,实践是检验真理的唯一标准.光看不练假把式,光练不看傻把式,边看...
作者:前端之家 时间:2021-02-22
php学习日志 - echo&print
在php中,结果输出一共有两种方式:echo和print,下面将对两种方式做一个比较。 echo与pri...
作者:前端之家 时间:2021-02-21
The mbstring extension is missing. Please check your PHP configuration错误及解决方法
在安装好wampServer后,一直没有使用phpMyAdmin,今天用了一下,phpMyAdmin显示错误:The m...
作者:前端之家 时间:2021-02-21
解决Windows Live Writer错误:WindowsLive.Writer.CoreServices.HttpRequestHelper的类型初始值设定发生异常
以前用Windows Live Writer写日志都好好的,前几天用写完日志,点击发布,突然弹出意外错误...
作者:前端之家 时间:2021-02-21
在PHP项目中使用Standford Moss代码查重系统
Standford Moss 系统是斯坦福大学大名鼎鼎的代码查重系统,它可以查出哪些同学提交的代码是...
作者:前端之家 时间:2021-02-18
Windows下PHP安全环境的搭建
笔者一直在Windows环境下搭建PHP的运行环境,大大小小的运行环境用过不少,从开始的WAMP到...
作者:前端之家 时间:2021-02-18
ThinkPHP5作业管理系统中处理学生未交作业与已交作业信息
在作业管理系统中,学生登陆到个人中心后可以通过左侧的菜单查看自己已经提交的作业和未提...
作者:前端之家 时间:2021-02-18
ThinkPHP5项目目录规划实践
ThinkPHP5安装后(或者下载后的压缩文件解压后)可以看到下面的目录结构: 一般的信息管理...
作者:前端之家 时间:2021-02-18
编程分类
PHP
Java
Java SE
Python
C#
C&C++
Ruby
VB
asp.Net
Go
Perl
netty
Django
Delphi
Jsp
.NET Core
Spring
Flask
Springboot
SpringMVC
Lua
Laravel
Mybatis
Asp
Groovy
ThinkPHP
Yii
swoole
最新文章
• Hessian通讯协议【附PHP源
• 初识Mongodb总结
• 初识Mongodb之[CURD]-PHP版
• php学习日志 - echo&p
• The mbstring extension i
• php学习日志 - php变量
• 解决Windows Live Writer错
• 在PHP项目中使用Standford
• Windows下PHP安全环境的搭
• ThinkPHP5作业管理系统中处
热门标签
更多 ►
文件时间
pythonm
相等性
PHP Warning
时间问题
问题解决
pcntl_signal
采样点
wav模块
动态文本
调用频率限制
对外暴露
多个访问请求
更新数据表
模型结构
type()方法
比较速度
手写体
sobel算子
保存模型
Image类
nn.Conv2d
pytorch1.0
kaggle
DCGAN
交并比
range()用法
打印模型
反卷积
卷积