我还需要知道什么才能进行正确的备份,这里的标准设置是什么,以确保您可以在系统出现故障时从备份中快速恢复?
我正在考虑使用Puppet,因为它描述了系统应该如何.我的恢复过程如下所示:
>安装Puppet
>运行我的puppet配置
>从DropBox恢复我的备份(我应该创建一个脚本来执行此操作吗?可能)
这也应该让我创建我的生产服务器的克隆,以便在开发环境中使用,对吗?我错过了什么重要的东西吗?
解决方法
恢复文件可能需要三个原因:意外文件删除,硬件故障或存档/法律原因. “完整”备份系统将使您能够在所有这些方案中还原文件.
对于意外删除文件,DropBox和RAID之类的东西会失败,因为它们只是反映了对文件系统所做的所有更改,并且在这些情况下删除的文件已经消失.您的备份系统应该能够相当快速地将文件恢复到最近的某个时间点;优选地,恢复将在几秒到几分钟内完成.
对于硬件故障,您应尽可能使用RAID和其他高可用性方法等解决方案,以确保您的服务保持正常运行,因为由于需要读写,系统的完全恢复可能需要数小时或数天(相对)慢的媒体.
最后,在特定时间点对系统进行归档或完全备份(或等效),可以在法律和灾难恢复方案中进行恢复.这些通常会存放在异地,以防流浪流星将您的数据中心变成吸烟坑……
您的完整备份系统应该能够支持这三种类型中的任何一种的恢复,具有不同的服务级别(SLA).例如,您可以决定在过去六个月中使用一个工作日粒度以及过去三年中的一个月粒度来恢复已删除的文件;并且磁盘故障应该能够在四小时内恢复,并且不会超过两个工作日的数据丢失.备份系统必须能够在备份计划中实施SLA.
您的备份系统必须完全自动化.这不够强调.如果备份不是完全自动化的,那么它们就不会发生.您的备份系统必须能够进行全自动备份,开箱即用,几乎不需要特殊配置或脚本.
您必须定期测试还原.如果从备份恢复无法正常工作,任何备份系统都将完全无用.我想我们大多数人都有这样的恐怖故事.您的备份系统必须能够恢复您正在实施的SLA中的单个文件或整个系统.
您必须持续购买备份媒体.无论您是进行现场磁带备份还是通过异地云备份进行整体生产,请确保在预算中支付所需的空间以支付千兆字节(或太字节数!)的空间.
这是对The Practice of System and Network Administration,Second Edition第26章的一部分的一个非常简短的总结,任何想要成为系统管理员的人都应该拥有,阅读和记忆.
我已经掩盖了许多不一定适用于您的特定情况或在您所描述的小环境中没有意义的事情.尽管如此,它应该是对“完整”备份系统应具备的功能的合理描述,以及为什么它们是必要的.