一直想着能把土豆网上的广告去掉,研究了一下实现方法。
以前经常给公司写网络爬虫项目,一般的小偷程序 1.file_get_contents/curl/socket -->页面的HTML 2.正则分析视频地址
缺点:
1.慢html页面比较大,有大量的信息是“杂志”信息
2.如果页面改版了,采集规则可能失效
解决办法:(目前各大网站都有自己的开放接口 applicationprograminginterface ,应用程序接口,利用网站的 API 就可以查询信息,如豆瓣的书籍信息,土豆的视频信息。)利用土豆的API得到XML信息
2.纯数据,比如标题,时长等,这些不会变的,很难失效
写程序获得xml文件
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <Meta http-equiv="Content-Type" content="text/html; charset=utf-8" /> <script type="text/javascript" language="javascript" src="./jquery-1.4.2.min.js"></script> <style type="text/css"> </style> <script type="text/javascript"> </script> </head> <body> <?PHP if($tudou=$_POST['tudou']){ $itemCode=basename($tudou); $key='1f3918053ff6bc04'; $api='http://api.tudou.com/v3/gw?method=item.info.get&appKey='.$key.'&format=xml&itemCodes='.$itemCode; echo $api; /* echo $api 得到的是一个xml文档,内容是视频的标题,时长,封面等等信息 接下来 我们要做的是用PHP把XML的节点信息 解析出来 知识:DOMDocument类来解析 当前我们暂时用字符串操作 来得到地址 */ $source=file_get_contents($api); $start=strpos($source,'<html5Url>'); $end=strpos($source,'</html5Url>'); $noad=substr($source,$start,$end-$start); echo $noad; } ?> <!--key=1f3918053ff6bc04--> <!--http://api.tudou.com/v3/gw?method=item.info.get&appKey=myKey&format=json&itemCodes=yg8CVootoAc --> <pre> 第28集http://www.tudou.com/programs/view/Dc6P2egJA4w/ </pre> <form method="post"> <p> 土豆地址:<input type="text" name="tudou"/> </p> <h1>这个地址需要支持html5的播放器才能观看</h1> <p> <input type="submit" value="获取地址"/> </p> </form> <p> 无广告地址:<?PHP echo $noad;?> </p> </body> </html>
效果如下:
得到的xml文件: