频道导航

从单个目录中删除具有重复内容的文件[Perl或算法]

2019-05-07 Perl 前端之家

前端之家收集整理的这篇文章主要介绍了从单个目录中删除具有重复内容的文件[Perl或算法]，前端之家小编觉得挺不错的，现在分享给大家，也给大家做个参考。

我有一个包含大量文件的文件夹,其中一些文件具有完全相同的内容.我想删除包含重复内容的文件,这意味着如果找到两个或多个重复内容的文件,我想留下其中一个文件,并删除其他文件.

以下是我提出的,但我不知道它是否有效:),还没试过.

你会怎么做？ Perl或一般算法.

use strict;
use warnings;

my @files = <"./files/*.txt">;

my $current = 0;

while( $current <= $#files ) {

    # read contents of $files[$current] into $contents1 scalar

    my $compareTo = $current + 1;
    while( $compareTo <= $#files ) {

        # read contents of $files[compareTo] into $contents2 scalar

        if( $contents1 eq $contents2 ) {
            splice(@files,$compareTo,1);
            # delete $files[compareTo] here
        }
        else {
            $compareTo++;
        }
    }

    $current++;
}

解决方法

Perl,带Digest :: MD5模块.

use Digest::MD5 ;
%seen = ();
while( <*> ){
    -d and next;
    $filename="$_"; 
    print "doing .. $filename\n";
    $md5 = getmd5($filename) ."\n";    
    if ( ! defined( $seen{$md5} ) ){
        $seen{$md5}="$filename";
    }else{
        print "Duplicate: $filename and $seen{$md5}\n";
    }
}
sub getmd5 {
    my $file = "$_";            
    open(FH,"<",$file) or die "Cannot open file: $!\n";
    binmode(FH);
    my $md5 = Digest::MD5->new;
    $md5->addfile(FH);
    close(FH);
    return $md5->hexdigest;
}

如果Perl不是必须的并且您正在使用* nix,则可以使用shell工具

find /path -type f -print0 | xargs -0 md5sum | \
    awk '($1 in seen){ print "duplicate: "$2" and "seen[$1] } \
         ( ! ($1 in  seen ) ) { seen[$1]=$2 }'

上一篇：perl – 如何捕获％ENV的更改？下一篇：从Perl 6中的异常处理程序返回值

猜你在找的Perl相关文章

漫谈 Perl 的 web 应用开发框架

忍不住在 PerlChina 邮件列表中盘点了一下 Perl 里的 Web 应用框架（巧的是 PerlBuzz 最近...

作者：前端之家时间：2020-08-13

perl中bless的理解

bless有两个参数：对象的引用、类的名称。类的名称是一个字符串，代表了类的类型信息，这...

作者：前端之家时间：2020-08-13

PERL GB2312 UTF-8 编码转换

gb2312转Utf的方法： use Encode; my $str = "中文"; $str_cnsoftware = encode(&...

作者：前端之家时间：2020-08-13

perl 计算硬盘利用率

perl 计算硬盘利用率，以%来查看硬盘资源是否存在IO消耗cpu资源情况；部份代码参考了...

作者：前端之家时间：2020-08-13

1 简单变量 Perl 的 Hello World 是怎么写的呢？请看下面的程序： #!/usr/bin/perl print ...

作者：前端之家时间：2020-08-13

Perl 中的正则表达式

正则表达式是 Perl 语言的一大特色，也是 Perl 程序中的一点难点，不过如果大家能够很好的...

作者：前端之家时间：2020-08-13

Perl和Shell区别

在学习Perl和Shell时，有很多人可能会问这样一个问题，到底先学习哪个或者学习哪个更好！ ...

作者：前端之家时间：2020-08-13

Perl命令行应用介绍

Perl 有很多命令行参数. 通过它, 我们有机会写出更简单的程序. 在这篇文章里我们来了解...

作者：前端之家时间：2020-08-13

perl的特殊变量

转自： http://bbs.chinaunix.net/thread-1191868-1-1.html# 让你的perl代码看起来更像per...

作者：前端之家时间：2020-08-13

Perl BackConnectShell + Rootlab t00l

2009-02-02 13:07 #!/usr/bin/perl # D.O.M TEAM - 2007 # anonyph; arp; ka0x; xarnuz # ...

作者：前端之家时间：2020-08-13

编程分类

PHP Java Java SE Python C#C&C++Ruby VB asp.Net Go Perl netty Django Delphi Jsp .NET Core Spring Flask Springboot SpringMVC Lua Laravel Mybatis Asp Groovy ThinkPHP Yii swoole

最新文章