问候,
我接管了之前的团队并编写了处理csv文件的ETL作业.我在ubuntu上使用了shell脚本和perl的组合. csv文件很大;他们以压缩档案的形式到达.解压缩,很多都超过30Gb – 是的,那是G
传统进程是在cron上运行的批处理作业,它完全解压缩每个文件,读取并将其第一行复制到配置文件中,然后重新压缩整个文件.有些日子,这需要很多小时的处理时间,没有任何好处.
解决方法
unzip
命令行实用程序具有-p选项,该文件将文件转储为标准输出.只需将其输入
head
,它就不会费心将整个文件解压缩到磁盘上.
或者,从perldoc IO::Compress::Zip
开始:
my ($status,$bufferRef); my $member = $zip->memberNamed( 'xyz.txt' ); $member->desiredCompressionMethod( COMPRESSION_STORED ); $status = $member->rewindData(); die "error $status" unless $status == AZ_OK; while ( ! $member->readIsDone() ) { ( $bufferRef,$status ) = $member->readChunk(); die "error $status" if $status != AZ_OK && $status != AZ_STREAM_END; # do something with $bufferRef: print $$bufferRef; } $member->endRead();