频道导航

在Perl中获取file2中没有出现的所有行的最快方法是什么？

2020-09-22 Perl 前端之家

前端之家收集整理的这篇文章主要介绍了在Perl中获取file2中没有出现的所有行的最快方法是什么？，前端之家小编觉得挺不错的，现在分享给大家，也给大家做个参考。

我有两个(非常大的)文本文件.在运行时方面,最快的方法是创建第三个文件,其中包含未出现在file2中的所有file1行？

所以如果file1包含：

Sally  
Joe  
Tom  
Suzie

而file2包含：

Sally  
Suzie  
Harry  
Tom

然后输出文件应包含：

Joe

解决方法

创建一个包含文件2中每一行的hashmap.然后,对于文件1中的每一行,如果它不在hashmap中,则输出它.这将是O(N),这是您可以实现的最佳效率等级,因为您必须阅读输入.

Perl实现：

#!/usr/bin/env perl
use warnings;
use strict;
use Carp ();

my $file1 = 'file1.txt';
my $file2 = 'file2.txt';

my %map;
{
    open my $in,'<',$file2 or Carp::croak("Cant open $file2");
    while (<$in>) {
      $map{$_} = 1;
    }
    close($in) or Carp::carp("error closing $file2");
}
{
   open my $in,$file1 or Carp::croak("Cant open $file1");
   while (<$in>) {
    if (!$map{$_}) {
      print $_;
    }
   }
   close $in or Carp::carp("error closing $file1");
}

如果文件2太大以至于hashmap不适合内存,那么我们手头就有了不同的问题.然后可能的解决方案是在文件2的块上使用上述解决方案(小到足以装入内存),将结果输出到临时文件.如果文件1和文件2之间有足够的匹配,那么总输出应该是合理的大小.为了计算最终结果,我们在临时文件中执行行的交集,即,对于在最终结果中的行,它必须在每个临时文件中出现.

上一篇：如何仅使用标准Perl库发出HTTP POS 下一篇：为什么我从Perl的system()开始是一

猜你在找的Perl相关文章

漫谈 Perl 的 web 应用开发框架

忍不住在 PerlChina 邮件列表中盘点了一下 Perl 里的 Web 应用框架（巧的是 PerlBuzz 最近...

作者：前端之家时间：2020-08-13

perl中bless的理解

bless有两个参数：对象的引用、类的名称。类的名称是一个字符串，代表了类的类型信息，这...

作者：前端之家时间：2020-08-13

PERL GB2312 UTF-8 编码转换

gb2312转Utf的方法： use Encode; my $str = "中文"; $str_cnsoftware = encode(&...

作者：前端之家时间：2020-08-13

perl 计算硬盘利用率

perl 计算硬盘利用率，以%来查看硬盘资源是否存在IO消耗cpu资源情况；部份代码参考了...

作者：前端之家时间：2020-08-13

1 简单变量 Perl 的 Hello World 是怎么写的呢？请看下面的程序： #!/usr/bin/perl print ...

作者：前端之家时间：2020-08-13

Perl 中的正则表达式

正则表达式是 Perl 语言的一大特色，也是 Perl 程序中的一点难点，不过如果大家能够很好的...

作者：前端之家时间：2020-08-13

Perl和Shell区别

在学习Perl和Shell时，有很多人可能会问这样一个问题，到底先学习哪个或者学习哪个更好！ ...

作者：前端之家时间：2020-08-13

Perl命令行应用介绍

Perl 有很多命令行参数. 通过它, 我们有机会写出更简单的程序. 在这篇文章里我们来了解...

作者：前端之家时间：2020-08-13

perl的特殊变量

转自： http://bbs.chinaunix.net/thread-1191868-1-1.html# 让你的perl代码看起来更像per...

作者：前端之家时间：2020-08-13

Perl BackConnectShell + Rootlab t00l

2009-02-02 13:07 #!/usr/bin/perl # D.O.M TEAM - 2007 # anonyph; arp; ka0x; xarnuz # ...

作者：前端之家时间：2020-08-13

编程分类

PHP Java Java SE Python C#C&C++Ruby VB asp.Net Go Perl netty Django Delphi Jsp .NET Core Spring Flask Springboot SpringMVC Lua Laravel Mybatis Asp Groovy ThinkPHP Yii swoole

最新文章