我们的Intranet上有一个文件夹结构,其中包含大约800,000个文件,分配到大约4,000个文件夹中.我们需要将它与我们DMZ中的一小组机器同步.结构的深度非常浅(它从不超过两层深).
大多数文件永远不会改变,每天有几千个更新文件和1-2千个新文件.数据是在源数据被清除的地方维护的历史报告数据(即,这些是源数据足够老的我们存档和删除的最终报告).鉴于它可以在合理的时间范围内发生,每天一次同步就足够了.报告是在一夜之间生成的,我们会在早上将第一件事作为预定任务进行同步.
显然,由于很少有文件定期更改,我们可以从增量复制中获益.我们已经尝试过Rsync,但只需要8到12个小时就可以完成“构建文件列表”操作.很明显,我们正在迅速超越rsync的能力(12小时的时间框架太长了).
我们一直在使用另一个名为RepliWeb的工具来同步结构,它可以在大约45分钟内完成增量传输.然而,似乎我们已经超出了它的限制,它已经开始看到文件显示为删除它们不是(可能一些内部存储器结构已经用尽,我们不确定).
有没有其他人遇到过这种大规模的同步项目?是否有设计用于处理大量文件结构以进行同步的东西?