crawler

 
 #!/usr/bin/perl 
 
 use 
 strict; 
 
 use 
 warnings; 

    
 
 use 
 threads; 
 
 use 
 threads::shared; 
 
 use 
 Thread::Queue; 
 
 use 
 Thread::Semaphore; 

    
 
 use 
 Bloom::Filter; 
 
 use 
 URI; 
 
 use 
 URI::URL; 
 
 use 
 Web::Scraper; 
 
 use 
 LWP::Simple; 

    
 
 use 
 LWP::UserAgent; 
 
 use 
 HTTP::Cookies; 

    
 
 #use HTTP::Cookies::Guess; 

    
 
 use 
 String::Diff; 
 
 use 
 String::Diff  
 qw(diff_fully diff diff_merge diff_regexp) 
 ; 
 
 use 
 URI::Split  
 qw(uri_split uri_join) 
 ; 

    
 
 my 
 $fid 
 : shared; 
 #下载的页面以递增的数字命名 
 
 share( 
 $fid 
 );     
 #多线程共享该变量 
 
 $fid 
 =0; 

    
 
 #crawling with signed cookie 
 
 my 
 $cookie_jar 
 =  
 '.mozilla/firefox/bg146ia6.default/cookies.sqlite' 
 ; 

    
 
 my 
 $tmp_ua 
 = LWP::UserAgent->new;     
 #UserAgent用来发送网页访问请求 
 
 $tmp_ua 
 ->timeout(15);                 
 ##连接超时时间设为15秒 
 
 $tmp_ua 
 ->protocols_allowed( [  
 'http' 
 , 
 'https' 
 ] );  
 ##只允许http和https协议 
 
 $tmp_ua 
 ->agent( 
 
 "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 2.0.50727;.NET CLR 3.0.04506.30; .NET CLR 3.0.4506.2152; .NET CLR 3.5.30729)" 
 
    
 ) 
 
    
 ;  
 ##用来在header中告诉服务器你用的是什么"浏览器"，设置文件头的User-Agent 

    
 
 $tmp_ua 
 ->cookie_jar(HTTP::Cookies->new( 
 'file' 
 => 
 "$ENV{'HOME'}/$cookie_jar" 
 , 
 'autosave' 
 =>1)); 
 
 # 设置cookie，在运行过程中必须执行两个方法，extract_cookies($request) 和 add_cookie_header($response)。在运行的过程中实际用到了HTTP::Cookies模块。如： 
 
 # $ua->cookie_jar({ file => "$ENV{HOME}/.cookies.txt" }); 
 
 # 等价于 
 
 # require HTTP::Cookies; 
 
 # $ua->cookie_jar(HTTP::Cookies->new(file => "$ENV{HOME}/.cookies.txt")); 

    
 
 push 
 @{ 
 $tmp_ua 
 ->requests_redirectable}, 
 'POST' 
 ; 
 #告诉LWP在POST请求发送后如果发生重新定向就自动跟随 

    
 
 my 
 $max_threads 
 = 5; 

    
 
 my 
 $base_url 
 =  
 $ARGV 
 [0] ||  
 'http://www.cnblogs.com/zhangchaoyang/' 
 ; 
 
 my 
 $host 
 = URI::URL->new( 
 $base_url 
 )->host; 
 
 print 
 "Host Name: $host.\n" 
 ; 

    
 
 my 
 $queue 
 = Thread::Queue->new( );        
 #线程队列，每个线程负责去处理一个url 

    
 
 my 
 $semaphore 
 = Thread::Semaphore->new(  
 $max_threads 
 ); 
 
 my 
 $mutex 
 = Thread::Semaphore->new( 1 ); 

    

    
 
 #my ($sec,$min,$hour,$mday,$mon,$year,$wday,$yday,$isdst) = localtime; 
 
 #my $logfile = "crawler".($year+1900).($mon+1).$mday.$hour.$min.$sec.".log"; 
 
 #open(BANLOG,">>$logfile") or die("can't open logfile:$!\n"); 

    
 
 # Bloom::Filter使用更少的内存采用一种基于概率的算法来进行存在性测试。 
 
 my 
 $filter 
 = shared_clone( Bloom::Filter->new( 
 capacity 
 => 1000000, 
 error_rate 
 => 0.001) ); 

    
 
 $queue 
 ->enqueue(  
 $base_url 
 );         
 #放入线程队列的URL就要被线程所处理 
 
 $filter 
 ->add(  
 $base_url 
 );            
 #放入filter中好判断该URL是否已经存在 

    
 
 my 
 @tmp_url 
 = ();                    
 #@tmp_url存在处理过的url 
 
 push 
 ( 
 @tmp_url 
 , 
 $base_url 
 ); 

    
 
 while 
 ( 1 ) 
 
 { 
 
      
 # join所有可以被join的线程 
 
      
 #my $joined = 0; 
 
      
 foreach 
 ( threads->list(threads::joinable) ) 
 
      
 { 
 
@H_633_502@ 
         #$joined ++;
$_ -> join ( );
}
@H_502_526@ #print $joined," joinedn";
crawler

猜你在找的Perl相关文章