c# – 查找2个巨大区域(文本)文件之间的更改

前端之家收集整理的这篇文章主要介绍了c# – 查找2个巨大区域(文本)文件之间的更改前端之家小编觉得挺不错的,现在分享给大家,也给大家做个参考。
我可以访问.com区域文件.区域文件是一个文本文件,其中包含域名列表及其名称服务器.它遵循以下格式:
mydomain NS ns.mynameserver.com.
mydomain NS ns2.mynameserver.com.
anotherdomain NS nameservers.com.
notinalphadomain NS ns.example.com.
notinalphadomain NS ns1.example.com.
notinalphadomain NS ns2.example.com.

如您所见,每个域可以有多行(当有多个名称服务器时),并且文件不是按字母顺序排列的.
这些文件大小约为7GB.

我正在尝试获取上一个文件和新文件,并将它们进行比较以查找:

>添加了哪些域名
>删除了哪些域名
>哪些域名更改了域名服务器

由于7GB太大而无法将整个文件加载到内存中,显然我需要在流中读取.我目前认为最好的方法是对两个文件进行多次传递.字母表中每个字母的一次传递,加载第一次传递中以’a’开头的所有域.
一旦我从旧文件和新文件中获得了所有“a”域,我就可以在内存中进行非常简单的比较来查找更改.

问题是,即使通过char读取char,并按照我能够想到的优化,每次传递文件大约需要200-300秒,收集当前传递字母的所有域.因此,我认为在当前状态下,我正在查看大约一个小时来处理文件,甚至没有将更改存储在数据库中(这将花费更多时间).这是在双四核xeon服务器上,因此对它投入更多的马力对我来说不是一个选择.
这个时间可能不是一个交易破坏者,但我希望有人对如何加快速度提出一些明智的想法……不可否认,我还没有尝试过async IO,这是我的下一步.

提前感谢任何想法!

解决方法

就最佳代码类型而言,准备数据可能会有所帮助:不成文的类型,以及执行速度.
cat yesterday-com-zone | tr A-Z a-z | sort > prepared-yesterday
cat today-com-zone | tr A-Z a-z | sort > prepared-today

现在,你的程序做了一个非常简单的差异算法,你甚至可以使用diff:

diff prepared-today prepared-yesterday

编辑:

还有一种替代解决方案,可以消除一些额外的处理,可能会牺牲差异执行时间.这也假定使用GnuWin32 CoreUtils:

sort -f <today-com-zone >prepared-today
sort -f <yesterday-com-zone >prepared-yesterday
diff -i prepared-today prepared-yesterday

输出将是添加,删除和更改的列表.每个区域不一定有1个更改记录(考虑当按顺序按字母顺序删除两个域时会发生什么).您可能需要使用diff选项来强制它不检查上下文的多行,以避免大量的误报变化.

您可能需要编写程序来获取两个已排序的输入文件,然后以锁定步骤,​​每个区域运行它们.在TODAY文件中找到新区域时,这是一个新区域.当在YESTERDAY文件中找到“新”区域(但今天丢失)时,这是一个删除.当在两个文件中找到“相同”区域时,则比较NS记录.这不是改变,也不是名称服务器的改变.

猜你在找的C#相关文章