我的网站越来越大,它开始通过各种渠道吸引大量垃圾邮件.该网站有许多不同类型的UGC(个人资料,论坛,博客评论,状态更新,私人消息等).我正在进行各种缓解措施,我希望以闪电般的方式进行部署,以使垃圾邮件发送者相信我们不是一个有价值的目标.我对我正在做的功能有很高的信心,但是一个缺失的部分就是一次性杀死所有旧的垃圾邮件.
这就是我所拥有的:
>大的好/坏语料库(5位数不好,6或7位数字好).很多垃圾邮件都有非常可靠的指纹,事实上我已经忽略它6个月有助于:)
>部署到AWS的大型模块化Rails站点.它不是一个巨大的流量站点,但我们在SOA的开始运行8个实例.
> Ruby,Redis,Resque,MySQL,Varnish,Nginx,Unicorn,Chef,所有这些都在Gentoo上
我的要求:
>我希望它在数据量方面表现得相当不错(因此我对纯ruby解决方案持谨慎态度).
>我应该能够针对不同类型的内容训练多种分类(419-scam vs僵尸网络链接垃圾邮件)
>我希望能够根据我们自己的侦探工作(模式匹配,IP重用等)添加手动因素
>最终我想构建一个与Ruby一起使用的漂亮界面.如果这需要我的手弄脏C或其他什么,我可以处理它,但如果可以的话我会避免它.
我意识到这是一个漫长而模糊的问题,但我正在寻找的主要是一个好的包列表,其次是来自某个人的随机想法,这些人建立了一个类似的方法来处理它.
最佳答案