频道导航

dede3.1分页文字采集过滤规则详说(图文教程)续四

2018-12-30 PHP 前端之家

前端之家收集整理的这篇文章主要介绍了dede3.1分页文字采集过滤规则详说(图文教程)续四，前端之家小编觉得挺不错的，现在分享给大家，也给大家做个参考。

至此，分页内容匹配进行完毕。文章内容匹配、分页内容匹配都进行完后，最后就只有“过滤”了，包括分页区域过滤和文章内容过滤。据本人的感觉，上面的两个规则都好写，只要找到全部链接中的“唯一性”代码就搞定，但过滤规则里却是欲说还休，道不尽的无穷奥妙……哈哈，感觉就是这样。尤其如我一般的新手，对“正则”这个东西如临天书，找了几个正则方面的软件吧仍觉无从下手，就只好依样画样，照猫画虎，依葫芦画瓢地摸索了。好了，闲话了。也累了，听听《加州旅馆》吧，在这：加州旅馆_老鹰乐队94现场放松下吧。你一眼看出来了过滤规则怎么写么，反正我是没能看得出来，没办法，新手就是新手呀。不管它，那就依照原范例的分页过滤规则写个规则试试看看结果吧：
<div class="codetitle"><a style="CURSOR: pointer" data="3504" class="copybut" id="copybut3504" onclick="doCopy('code3504')"> 代码如下:

<div class="codebody" id="code3504">
{dede:trim}<tdalign='center'height='30'>(.)页次{/dede:trim}

采集一下：

分页成功了，但废码多，还得改!
看下多余的代码特征，好象是过滤范围不够，后面的很多内容都要过滤掉。那好，把过滤区域再往后移，直接移至描红部分吧(其实我在改过滤规则的时候，改了好几次，这里就一次到位吧，不耽误朋友们的时间了)：

写个完整的分页过滤规则：
<div class="codetitle"><a style="CURSOR: pointer" data="95218" class="copybut" id="copybut95218" onclick="doCopy('code95218')"> 代码如下:

<div class="codebody" id="code95218">
{dede:trim}<tdalign='center'height='30'>(.)</td>{/dede:trim}

再采集下，看看结果：

好了，分页成功，无多余代码。至此，全部主要的代码部分完成。
结果在这里：
有分页的：党员干部作风整顿剖析材料
无分页的：文艺部工作计划
写一个完成的站点规则：
<div class="codetitle"><a style="CURSOR: pointer" data="73192" class="copybut" id="copybut73192" onclick="doCopy('code73192')"> 代码如下:

<div class="codebody" id="code73192">
{!--节点基本信息--} {dede:itemname='天水_工作计划_1页'
imgurl='/upimg'imgdir='../upimg'language='gb2312'typeid='1'macthtype='string'}
{/dede:item} {!--采集列表获取规则--} {dede:listsource='var'sourcetype='list'
varstart=''varend=''}
{dede:urlvalue='http://www.tiansou.net/Html/Y_CYFW/R_Gzzj/F_Gzjh/index.html'}{/dede:url}
{dede:need}Gzjh/2007-{/dede:need}
{dede:cannot}Gzjh/2007-1{/dede:cannot}
{dede:linkarea}[var:区域]{/dede:linkarea}
{/dede:list} {!--网页内容获取规则--} {dede:art}
{dede:sppagesptype='full'}<tdalign='center'height='30'>首页上页[var:分页区域]页次{/dede:sppage} {dede:notefield='dede_archives.title'value='[var:内容]'comment='文章标题'
isunit=''isdown=''} {dede:match}[var:<a href="/tag/neirong/" target="_blank" class="keywords">内容</a>]--天水<a href="/tag/sousuo/" target="_blank" class="keywords">搜索</a>{/dede:match} {dede:function}{/dede:function} {/dede:note} {dede:notefield='dede_archives.sortrank'value='[var:内容]'comment='排序级别'
isunit=''isdown=''} {dede:match}{/dede:match} {dede:function}@me=time();{/dede:function} {/dede:note} {dede:notefield='dede_archives.writer'value='[var:内容]'comment='文章作者'
isunit=''isdown=''} {dede:match}{/dede:match} {dede:function}{/dede:function} {/dede:note} {dede:notefield='dede_archives.litpic'value='[var:内容]'comment='缩略图'
isunit=''isdown=''} {dede:match}{/dede:match} {dede:function}@me=@litpic;{/dede:function} {/dede:note} {dede:notefield='dede_archives.pubdate'value='[var:内容]'comment='发布时间'
isunit=''isdown=''} {dede:match}{/dede:match} {dede:function}if(@me!="")@me=GetMkTime(@me);
else@me=time();{/dede:function} {/dede:note} {dede:notefield='dede_archives.senddate'value='[var:内容]'comment='录入时间'
isunit=''isdown=''} {dede:match}{/dede:match} {dede:function}@me=time();{/dede:function} {/dede:note} {dede:notefield='dede_addonarticle.body'value='[var:内容]'comment='文章内容'
isunit='1'isdown='1'} {dede:match}

<TDheight="8">

<TDvalign="top"class=Connet>

[var:内容]

{/dede:match}
{dede:trim}<tdalign='center'height='30'>(.)</td>{/dede:trim}
{dede:trim}
{/dede:trim}
{dede:trim}<param([^>])>{/dede:trim}
{dede:trim}<embed([^>])>([^>]){/dede:trim}
{dede:trim}<embed([^>])>{/dede:trim}
{dede:trim}{/dede:trim}
{dede:trim}<object([^>])>([^>]){/dede:trim}
{dede:trim}<object([^>])>{/dede:trim}
{dede:trim}{/dede:trim}
{dede:trim}<OBJECT([^>])>([^>]){/dede:trim}
{dede:trim}<OBJECT([^>])>{/dede:trim}
{dede:trim}{/dede:trim}
{dede:trim}<iframe([^>])>([^>]){/dede:trim}
{dede:trim}<iframe([^>])>{/dede:trim}
{dede:trim}{/dede:trim}
{dede:trim}<IFRAME([^>])>([^>]){/dede:trim}
{dede:trim}<IFRAME([^>])>{/dede:trim}
{dede:trim}{/dede:trim}
{dede:trim}<font([^>])>([^<]){/dede:trim}
{dede:trim}<font([^>])>{/dede:trim}
{dede:trim}{/dede:trim}
{dede:trim}<img([^>])>{/dede:trim}
{dede:trim}<a([^>])>([^<]){/dede:trim}
{dede:trim}<a([^>])>{/dede:trim}
{dede:trim}{/dede:trim}
{dede:trim}<td([^>])>([^>])</td>{/dede:trim}
{dede:trim}<td([^>])>{/dede:trim}
{dede:trim}</td>{/dede:trim}
{dede:trim}<tr([^>])>([^>])</tr>{/dede:trim}
{dede:trim}<tr([^>])>{/dede:trim}
{dede:trim}</tr>{/dede:trim}
{dede:trim}<tbody([^>])>([^>]){/dede:trim}
{dede:trim}{/dede:trim}
{dede:trim}{/dede:trim}
{dede:trim}<table([^>])>([^>])</table>{/dede:trim}
{dede:trim}<table([^>]*)>{/dede:trim}
{dede:trim}</table>{/dede:trim}
{dede:trim}{/dede:trim} {dede:function}{/dede:function} {/dede:note} {dede:notefield='dede_archives.source'value='[var:内容]'comment='文章来源'
isunit=''isdown=''} {dede:match}{/dede:match} {dede:function}@me='互联网'{/dede:function} {/dede:note}
{/dede:art}

dede3.1分页文字采集过滤规则详说(图文教程)续四

上一篇：dede3.1分页文字采集过滤规则详说(下一篇：dedecms系统常用术语汇总

猜你在找的PHP相关文章

Hessian通讯协议【附PHP源代码】

Hessian开源的远程通讯，采用二进制 RPC的协议，基于 HTTP 传输。可以实现PHP调用Java,Pyt...

作者：前端之家时间：2021-02-22

初识Mongodb总结

初识Mongodb的一些总结,在Mac Os X下真实搭建mongodb环境,以及分享个Mongodb管理工具,学习...

作者：前端之家时间：2021-02-22

初识Mongodb之[CURD]-PHP版

边看边操作,这样才能记得牢,实践是检验真理的唯一标准.光看不练假把式,光练不看傻把式,边看...

作者：前端之家时间：2021-02-22

php学习日志 - echo&print

在php中，结果输出一共有两种方式：echo和print，下面将对两种方式做一个比较。 echo与pri...

作者：前端之家时间：2021-02-21

The mbstring extension is missing. Please check your PHP configuration错误及解决方法

在安装好wampServer后，一直没有使用phpMyAdmin,今天用了一下，phpMyAdmin显示错误：The m...

作者：前端之家时间：2021-02-21

解决Windows Live Writer错误:WindowsLive.Writer.CoreServices.HttpRequestHelper的类型初始值设定发生异常

以前用Windows Live Writer写日志都好好的，前几天用写完日志，点击发布，突然弹出意外错误...

作者：前端之家时间：2021-02-21

在PHP项目中使用Standford Moss代码查重系统

Standford Moss 系统是斯坦福大学大名鼎鼎的代码查重系统，它可以查出哪些同学提交的代码是...

作者：前端之家时间：2021-02-18

Windows下PHP安全环境的搭建

笔者一直在Windows环境下搭建PHP的运行环境，大大小小的运行环境用过不少，从开始的WAMP到...

作者：前端之家时间：2021-02-18

ThinkPHP5作业管理系统中处理学生未交作业与已交作业信息

在作业管理系统中，学生登陆到个人中心后可以通过左侧的菜单查看自己已经提交的作业和未提...

作者：前端之家时间：2021-02-18

ThinkPHP5项目目录规划实践

ThinkPHP5安装后（或者下载后的压缩文件解压后）可以看到下面的目录结构：一般的信息管理...

作者：前端之家时间：2021-02-18

编程分类

PHP Java Java SE Python C#C&C++Ruby VB asp.Net Go Perl netty Django Delphi Jsp .NET Core Spring Flask Springboot SpringMVC Lua Laravel Mybatis Asp Groovy ThinkPHP Yii swoole

最新文章