算法 – 通过日志快速文本搜索

前端之家收集整理的这篇文章主要介绍了算法 – 通过日志快速文本搜索前端之家小编觉得挺不错的,现在分享给大家,也给大家做个参考。
这是我遇到的问题,我有一组可以快速增长的日志.它们每天都被分成单独的文件,文件可以很容易地增长到一个大小的演出.为了帮助减小尺寸,超过30天左右的条目将被清除.

问题是我想在这些文件搜索某个字符串.目前,Boyer-Moore搜索速度慢得令人难以置信.我知道像dtSearch这样的应用程序可以使用索引提供非常快速搜索,但是我不确定如何在不占用日志占用空间的情况下实现它.

有没有我可以查看的资源可以提供帮助?我真的在寻找一种标准算法,它可以解释我应该做些什么来构建索引并用它来搜索.

编辑:
Grep无法运行,因为此搜索需要集成到跨平台应用程序中.我无法将任何外部程序包含在其中.

它的工作方式是有一个带有日志浏览器的Web前端.这与自定义C Web服务器后端进行对话.此服务器需要在合理的时间内搜索日志.目前搜索几个日志需要很长时间.

编辑2:
其中一些建议很好,但我必须重申,我无法整合另一个应用程序,这是合同的一部分.但是,为了回答一些问题,日志中的数据不同于接收到的医疗保健特定格式的消息或与这些格式相关的消息.我希望依赖索引,因为虽然重建索引可能需要一分钟,但搜索目前需要很长时间(我已经看到它需要2.5分钟).此外,在记录之前,很多数据都被丢弃了.除非启用某些调试日志记录选项,否则将忽略超过一半的日志消息.

搜索基本上是这样的:Web表单上的用户会看到最新消息的列表(在滚动时从磁盘流式传输,yay用于ajax),通常,他们希望搜索包含某些信息的消息它,可能是患者ID,或者他们发送的一些字符串,因此他们可以将字符串输入搜索.搜索以异步方式发送,并且自定义Web服务器一次性线性搜索1MB的日志以获得某些结果.当日志变大时,此过程可能需要很长时间.而这正是我想要优化的.

解决方法

查看Lucene用于执行其操作的算法.但是,它们不太可能非常简单.我曾经不得不一次研究其中的一些算法,其中一些非常复杂.

如果您可以识别要索引的文本中的“单词”,只需构建一个大的哈希表,将单词的哈希值映射到每个文件中的出现位置.如果用户经常重复相同的搜索,请缓存搜索结果.搜索完成后,您可以检查每个位置以确认搜索词落在那里,而不仅仅是具有匹配哈希的单词.

另外,谁真的关心索引是否大于文件本身?如果你的系统非常庞大,活动如此之多,那么世界末日的索引会有几十个演出吗?

猜你在找的HTML相关文章