比较 – 找到两个文本体的“相关性”有哪些好的方法?

前端之家收集整理的这篇文章主要介绍了比较 – 找到两个文本体的“相关性”有哪些好的方法?前端之家小编觉得挺不错的,现在分享给大家,也给大家做个参考。
这是问题 – 我有几千个小文本片段,从几个单词到几个句子 – 最大的片段大约是磁盘上的2k.我希望能够比较每个,并计算相关因素,以便我可以向用户显示相关信息.

有什么好方法可以做到这一点?有没有已知的算法可以做任何好事,是否有任何GPL解决方案等?

我不需要这个实时运行,因为我可以预先计算一切.我更关心的是获得比运行时更好的结果.

我只是想在开始编写自己的东西之前会问Stack Overflow社区.那里的人必须找到好的解决方案.

解决方法

这些文章semantic relatednesssemantic similarity可能会有所帮助.关于 Latent Semantic Analysis这个问题.

您还可以在Soundex中查找“发音相似”的单词.

猜你在找的HTML相关文章