我正在开发网络爬虫,哪个对存储数据有好处?卡桑德拉或者Hadoop的蜂巢或MySQL?为什么?我有过去在我的MysqL数据库6个月的数据1TB,我需要索引他们,我需要得到了把我的搜索尽快,并且我认为,它会存储更多数据,例如10个Peta Byes,因为我的抓取工具正在快速运行,我需要快速进行读/写操作,我需要将其集成到我的PHP应用程序中
最佳答案
@H_403_5@这取决于您的要求的详细信息,但是我认为在您的情况下,HBase将是最佳选择.充分证明了将HBase用作Web爬网程序数据库,BigTable白皮书中介绍了HBase的用法.