频道导航

PHP 采集网页文字并保存的实现方法

2019-12-06 PHP 前端之家

前端之家收集整理的这篇文章主要介绍了PHP 采集网页文字并保存的实现方法，前端之家小编觉得挺不错的，现在分享给大家，也给大家做个参考。

PHP采集网页文字采集并保存，感兴趣的小伙伴，下面一起跟随编程之家 jb51.cc的小编来看看吧。
经测试代码如下：


<?PHP
/**
 *功能:获取页面内容,存储下来阅读;lost63
 *
 * @param 
 * @author 编程之家 jb51.cc jb51.cc
 **/
 Class GetUrl{
 var $url; //地址
 var $result; //结果
 var $content; //内容
 var $list; //列表

 function GetUrl($url){
 $this->url=$url;
 $this->GetContent();
 $this->GetList();
 $this->FileSave();
 //print_r($this->list[2]);
 }
 private function GetContent(){
 $this->result=fopen($this->url,"r");
 while(!feof($this->result)){
 $this->content.=fgets($this->result,9999);
 }
 }
 private function GetList(){
 preg_match_all('/<a(.*?)href="(.*?)">(.*?)</a>/',$this->content,$this->list);
 $this->list[2]=array_unique($this->list[2]); //移除相同的值
 while(list($key,$value)=each($this->list[2])){
 if(strpos($value,".html")==0||strpos($value,"jiaocheng")==0){
 unset($this->list[2][$key]);
 }else{
 $this->list[2][$key]=substr($value,strpos($value,".html")).".html"; //去掉不需要的标签
 }
 }
 }
 private function FileSave(){
 foreach($this->list[2] as $value){
 $this->url=$value; //重新赋值
 $this->content=null;
 $this->GetContent(); //提取内容
 preg_match_all('/<title>(.*?)</title>/',$files); //取标题
 $filename=$files[1][0].".html"; //存储名
 $content=$this->str_cut($this->content,'http://pagead2.googlesyndication.com/pagead/show_ads.js','<div id="article_detail">');
 $file=fopen($filename,"w");
 fwrite($file,$content);
 fclose($file);
 echo $filename."保存 OK<br>n";
 }
 }
 function str_cut($str,$start,$end) {
 $content = strstr( $str,$start );
 $content = substr( $content,strlen( $start ),strpos( $content,$end ) - strlen( $start ) );
 return $content;
 }
 }

 $w=new GetUrl("http://jb51.cc /jiaocheng/javaｓｃｒｉｐｔ-jiaocheng-352.html");
 ?>


/***   来自编程之家 jb51.cc（jb51.cc）   ***/

上一篇：PHP 调整图像尺寸的简单示例下一篇：PHP 数据库表结构查看方法

猜你在找的PHP相关文章

Hessian通讯协议【附PHP源代码】

Hessian开源的远程通讯，采用二进制 RPC的协议，基于 HTTP 传输。可以实现PHP调用Java,Pyt...

作者：前端之家时间：2021-02-22

初识Mongodb总结

初识Mongodb的一些总结,在Mac Os X下真实搭建mongodb环境,以及分享个Mongodb管理工具,学习...

作者：前端之家时间：2021-02-22

初识Mongodb之[CURD]-PHP版

边看边操作,这样才能记得牢,实践是检验真理的唯一标准.光看不练假把式,光练不看傻把式,边看...

作者：前端之家时间：2021-02-22

php学习日志 - echo&print

在php中，结果输出一共有两种方式：echo和print，下面将对两种方式做一个比较。 echo与pri...

作者：前端之家时间：2021-02-21

The mbstring extension is missing. Please check your PHP configuration错误及解决方法

在安装好wampServer后，一直没有使用phpMyAdmin,今天用了一下，phpMyAdmin显示错误：The m...

作者：前端之家时间：2021-02-21

解决Windows Live Writer错误:WindowsLive.Writer.CoreServices.HttpRequestHelper的类型初始值设定发生异常

以前用Windows Live Writer写日志都好好的，前几天用写完日志，点击发布，突然弹出意外错误...

作者：前端之家时间：2021-02-21

在PHP项目中使用Standford Moss代码查重系统

Standford Moss 系统是斯坦福大学大名鼎鼎的代码查重系统，它可以查出哪些同学提交的代码是...

作者：前端之家时间：2021-02-18

Windows下PHP安全环境的搭建

笔者一直在Windows环境下搭建PHP的运行环境，大大小小的运行环境用过不少，从开始的WAMP到...

作者：前端之家时间：2021-02-18

ThinkPHP5作业管理系统中处理学生未交作业与已交作业信息

在作业管理系统中，学生登陆到个人中心后可以通过左侧的菜单查看自己已经提交的作业和未提...

作者：前端之家时间：2021-02-18

ThinkPHP5项目目录规划实践

ThinkPHP5安装后（或者下载后的压缩文件解压后）可以看到下面的目录结构：一般的信息管理...

作者：前端之家时间：2021-02-18

编程分类

PHP Java Java SE Python C#C&C++Ruby VB asp.Net Go Perl netty Django Delphi Jsp .NET Core Spring Flask Springboot SpringMVC Lua Laravel Mybatis Asp Groovy ThinkPHP Yii swoole

最新文章