备份 – 同步非常大的文件夹结构

前端之家收集整理的这篇文章主要介绍了备份 – 同步非常大的文件夹结构前端之家小编觉得挺不错的,现在分享给大家,也给大家做个参考。
我们的Intranet上有一个文件夹结构,其中包含大约800,000个文件,分配到大约4,000个文件夹中.我们需要将它与我们DMZ中的一小组机器同步.结构的深度非常浅(它从不超过两层深).

大多数文件永远不会改变,每天有几千个更新文件和1-2千个新文件.数据是在源数据被清除的地方维护的历史报告数据(即,这些是源数据足够老的我们存档和删除的最终报告).鉴于它可以在合理的时间范围内发生,每天一次同步就足够了.报告是在一夜之间生成的,我们会在早上将第一件事作为预定任务进行同步.

显然,由于很少有文件定期更改,我们可以从增量复制中获益.我们已经尝试过Rsync,但只需要8到12个小时就可以完成“构建文件列表”操作.很明显,我们正在迅速超越rsync的能力(12小时的时间框架太长了).

我们一直在使用另一个名为RepliWeb的工具来同步结构,它可以在大约45分钟内完成增量传输.然而,似乎我们已经超出了它的限制,它已经开始看到文件显示删除它们不是(可能一些内部存储器结构已经用尽,我们不确定).

有没有其他人遇到过这种大规模的同步项目?是否有设计用于处理大量文件结构以进行同步的东西?

解决方法

如果您可以信任文件系统上次修改的时间戳,则可以通过将Rsync与UNIX / Linux“find”实用程序相结合来加快速度. ‘find’可以汇编显示过去一天内显示上次修改时间的所有文件的列表,然后只将那些缩短的文件/目录列表发送到Rsync.这比让Rsync将发送方上的每个文件的元数据与远程服务器进行比较要快得多.

简而言之,以下命令将仅在过去24小时内更改的文件和目录列表上执行Rsync

猜你在找的Linux相关文章