前端之家收集整理的这篇文章主要介绍了
phpcms怎样配置采集模块,
前端之家小编觉得挺不错的,现在分享给大家,也给大家做个参考。
今天给大家介绍一下
PHPcms中采集模块的
用法,这个属于
PHPcms的
后台基础操作,
PHPcms在开源程序中一直是佼佼者,我们必须要学会怎样使用
位置: 内容 > 内容发布管理 > 采集管理 >
模块常用操作
操作名 |
说明 |
采集流程详述 |
无 |
其它功能说明 |
无 |
@H_404_44@
说明:
文章的采集功能是通过程序来远程获取目标网页内容,经过本地规则解析处理后存储到服务器的数据库内。
文章采集系统颠覆传统采集模式和流程,采集规则与采集界面分离,规则设置更简单,只需有基础技术知识的人员设置好相关规则。编辑人员无需了解太过细节的技 术规则,只需选中自己想要采集的
文章列表,就可以像发布
文章一样,轻松地完成数据采集操作。
一、采集流程
简单的讲有三个步骤:
以采集新浪新闻(http://roll.news.sina.com.cn/news/gjxw/gjmtjj/index.shtml)为例,作一下详细流程介绍。
实例说明:
目标:采集新浪新闻到V9系统 国际新闻 栏目中。
目标网址:http://roll.news.sina.com.cn/news/gjxw/gjmtjj/index.shtml
1.1 网址规则配置
查看要采集的目标网址源
代码,查找到要采集网址的开始点和结束点(
这二个点要有在整个源代码里具有唯一性)。更进一步缩小采集网址
搜索范围。
内容规则这里看起来比较复杂,其实也很简单,为了便于说明,我们只采集
标题、
内容两个字段。采集
内容网址:
http://news.sina.com.cn/w/2010-12-01/135121565455.shtml 的
内容采集规则,请你打开这个网址,然后
页面空白处右键->查看源
文件搜索标题和
内容的开始边界。
从网页<title></title>里取
标题,并
去除不需要的字符。如下图
新浪新闻最终页,新闻
内容都包含在 <!-- 正文
内容 begin --> <!-- 正文
内容 end --> 之间,而且这二个结点,在整个
页面源
代码中具有唯一性。所以可以以此为规则取
内容。并对
内容进行过滤。如下图
1.4 高级配置
可设置是否把
图片下载到服务器上,是否打水印等配置。
采集规则配好以后,即可进行网址的采集,然后进行
内容的采集。
选择导入的栏目
设置 采集
内容与
数据库的字段对应关系.提交进行数据入库,在此期间请耐心等待, 完成后会
自动转向。至此一个简单的采集流程就操作完成。