我有.txt文件(包含超过百万行),大约1GB,我有一个字符串列表,我试图从存在于字符串列表中的文件中删除所有行,并创建新文件,但正在采取很长时间
using (StreamReader reader = new StreamReader(_inputFileName)) { using (StreamWriter writer = new StreamWriter(_outputFileName)) { string line; while ((line = reader.ReadLine()) != null) { if (!_lstLineToRemove.Contains(line)) writer.WriteLine(line); } } }
解决方法
您可以通过使用PLINQ并行进行工作来获得一些加速,同时从列表切换到散列集也将大大加快Contains(检查.HashSet对于只读操作是线程安全的).
private HashSet<string> _hshLineToRemove; void ProcessFiles() { var inputLines = File.ReadLines(_inputFileName); var filteredInputLines = inputLines.AsParallel().AsOrdered().Where(line => !_hshLineToRemove.Contains(line)); File.WriteAllLines(_outputFileName,filteredInputLines); }
如果输出文件与输入文件的顺序相同,则可以删除.AsOrdered()并获得一些额外的速度.
除此之外,你真的只是I / O绑定,使其更快的唯一方法是获得更快的驱动器来运行它.