algorithm – sed optimization(基于较小数据集的大文件修改)

前端之家收集整理的这篇文章主要介绍了algorithm – sed optimization(基于较小数据集的大文件修改)前端之家小编觉得挺不错的,现在分享给大家,也给大家做个参考。
我必须处理非常大的纯文本文件(超过10千兆字节,是的,我知道它取决于我们应该称之为大的),行很长.

我最近的任务涉及基于另一个文件的数据进行一些行编辑.

数据文件(应该被修改)包含1500000行,每行都是例如800个字符长.每一行都是唯一的,只包含一个身份证号码,每个身份证号码都是唯一的)

修饰符文件例如是1800行,包含一个标识号,以及应在数据文件修改数量和日期.

我只是将(使用Vim正则表达式)修改文件转换为sed,但效率非常低.

假设我在数据文件中有这样的一行:

(some 500 character)id_number(some 300 character)

我需要修改300个字符的数据.

基于修饰符文件,我想出了像这样的sed行:

/id_number/ s/^\(.\{650\}\).\{20\}/\1CHANGED_AMOUNT_AND_DATA/

所以我有1800条这样的线.

但我知道,即使是在速度非常快的服务器上,如果我这么做的话

sed -i.bak -f modifier.sed data.file

它非常慢,因为它必须读取每一行的每个模式.

有没有更好的方法

注意:我不是程序员,从未学过(在学校里)算法.
我可以在服务器上使用awk,sed,一个过时的perl版本.

解决方法

我建议的方法(按照希望的顺序)将处理这些数据:

>一个数据库(即使是一个带有索引的简单的基于sqlite的数据库也会比10GB文件上的sed / awk表现更好)
>包含固定记录长度的平面文件
>包含可变记录长度的平面文件

使用数据库可以处理所有那些减慢文本文件处理速度的细节(找到您关心的记录,修改数据,将其存储回数据库).在Perl的情况下查看DBD :: sqlite.

如果你想坚持使用平面文件,你需要在大文件旁边手动维护一个索引,这样你就可以更容易地查找你需要操作的记录号.或者,更好的是,也许您的身份证号码是您的记录号码?

如果你有可变的记录长度,我建议转换为固定记录长度(因为它看起来只有你的ID是可变长度).如果你不能这样做,也许任何现有的数据都不会在文件中移动?然后你可以维护前面提到的索引并根据需要添加新条目,区别在于,不是指向记录号的索引,而是指向文件中的绝对位置.

猜你在找的Linux相关文章