我们正在使用munin来监控生产站点的VPS,并在某个VPS上监控以确保它在失败时重新启动服务.
事情是我们需要一个更好的方法来监控我们所有的服务器,因为我们有多达14个VPS,我们希望有一个中心枢纽,我们不仅可以看到munin收集的数据,还有一些额外的统计数据关于网络和我们服务的表现.
我们的一些要求:
– 失败时的短信通知(设置某些自定义验证的能力)
– 日志分析器用于apache error_log和其他一些.
– 必须是中心的(意味着一个服务器和几个节点收集数据).
– 不需要易于安装但易于维护.
– 需要自由
我一直指着nagios和splunk,你怎么看?
谢谢,
> Nagios用于警报(使用PNP进行一些精简图表,使用Nagviz进行服务状态仪表板)
> Ganglia用于系统的历史图表
> OSSEC作为HIDS,同样重要的是作为集中式日志记录的收集器
>旁注:OSSEC有一个Splunk插件,可以很好地集成这两个工具,我正在等待它们将它移植到Splunk v4上.
> Splunk最后,一旦Splunk插件迁移过来,我们计划使用Splunk进行一些预过滤日志(以避免超过免费版本上限)
我希望分享我们的监控设置将帮助您:-)
以下是一些有用的链接:
http://www.ibm.com/developerworks/linux/library/l-ganglia-nagios-1/index.html
https://www.ibm.com/developerworks/linux/library/l-ganglia-nagios-2/
http://www.ossec.net/main/splunk-ossec-integration
更新:
我忘了提到我们也使用Matt Simmons Nagios配置布局,在这里找到http://www.standalone-sysadmin.com/blog/2009/07/nagios-config/
这种布局使我们的Nagios配置更加清晰,更易于维护(感谢Matt!)