频道导航

perl并行处理大文件

2020-09-10 Perl 前端之家

前端之家收集整理的这篇文章主要介绍了perl并行处理大文件，前端之家小编觉得挺不错的，现在分享给大家，也给大家做个参考。

有时候会需要对大文件进行并行处理.

对于文本文件,需要保证行的完整性.

一种是快速跳过不需要的行

#!/bin/env perl
use strict;
my $m=$ARGV[0];  #分成m份
my $l=$ARGV[1];  #第l份

my $file="test1.txt";

#my $line=`wc -l $file`;
#my ($linenum)=$line=~/(\d+)/;
my $linenum=10;
my $n=int($linenum/$m);  #每份做n行

open( READ,"<$file" );
my $i=0;
while (<READ>) { 
  #print $i;
  if ($i>=($l-1)*$n){
  &doit();
  }
  $i++;
  last if ($i>=$l*$n || $i>linenum)
}

sub doit(){
  print $_;
}
close READ;

改进一些的方法是使用seek,但是需要处理不完整行,可以让前一个进程多处理一行,后一个进程少处理一行

#!/bin/env perl
use strict;
my $m=$ARGV[0];  #分成m份
my $l=$ARGV[1];  #第l份

my $file="test1.txt";

my @args = stat ($file);
my $size = $args[7];

my $n=int($size/$m);  #每份做nbytes

open( READ,"<$file" );
seek READ,(($l-1)*$n),0;
  
  #非第一份，少读第一行
  if($l>1){
  	my $tmpline = <READ>;
  }
  
while (<READ>) { 
   &doit();
   my $position = tell(READ);
  last if ($position> $l*$n || $position>=$size); #多读一行 
}

sub doit(){
  print $_;
}
close READ;

上一篇：perl学习之(not install YAML)解决下一篇：perl学习记录（二）

猜你在找的Perl相关文章

漫谈 Perl 的 web 应用开发框架

忍不住在 PerlChina 邮件列表中盘点了一下 Perl 里的 Web 应用框架（巧的是 PerlBuzz 最近...

作者：前端之家时间：2020-08-13

perl中bless的理解

bless有两个参数：对象的引用、类的名称。类的名称是一个字符串，代表了类的类型信息，这...

作者：前端之家时间：2020-08-13

PERL GB2312 UTF-8 编码转换

gb2312转Utf的方法： use Encode; my $str = "中文"; $str_cnsoftware = encode(&...

作者：前端之家时间：2020-08-13

perl 计算硬盘利用率

perl 计算硬盘利用率，以%来查看硬盘资源是否存在IO消耗cpu资源情况；部份代码参考了...

作者：前端之家时间：2020-08-13

1 简单变量 Perl 的 Hello World 是怎么写的呢？请看下面的程序： #!/usr/bin/perl print ...

作者：前端之家时间：2020-08-13

Perl 中的正则表达式

正则表达式是 Perl 语言的一大特色，也是 Perl 程序中的一点难点，不过如果大家能够很好的...

作者：前端之家时间：2020-08-13

Perl和Shell区别

在学习Perl和Shell时，有很多人可能会问这样一个问题，到底先学习哪个或者学习哪个更好！ ...

作者：前端之家时间：2020-08-13

Perl命令行应用介绍

Perl 有很多命令行参数. 通过它, 我们有机会写出更简单的程序. 在这篇文章里我们来了解...

作者：前端之家时间：2020-08-13

perl的特殊变量

转自： http://bbs.chinaunix.net/thread-1191868-1-1.html# 让你的perl代码看起来更像per...

作者：前端之家时间：2020-08-13

Perl BackConnectShell + Rootlab t00l

2009-02-02 13:07 #!/usr/bin/perl # D.O.M TEAM - 2007 # anonyph; arp; ka0x; xarnuz # ...

作者：前端之家时间：2020-08-13

编程分类

PHP Java Java SE Python C#C&C++Ruby VB asp.Net Go Perl netty Django Delphi Jsp .NET Core Spring Flask Springboot SpringMVC Lua Laravel Mybatis Asp Groovy ThinkPHP Yii swoole

最新文章