这是问题 – 我有几千个小文本片段,从几个单词到几个句子 – 最大的片段大约是磁盘上的2k.我希望能够比较每个,并计算相关因素,以便我可以向用户显示相关信息.
有什么好方法可以做到这一点?有没有已知的算法可以做任何好事,是否有任何GPL解决方案等?
我不需要这个实时运行,因为我可以预先计算一切.我更关心的是获得比运行时更好的结果.
我只是想在开始编写自己的东西之前会问Stack Overflow社区.那里的人必须找到好的解决方案.
解决方法
这些文章在
semantic relatedness和
semantic similarity可能会有所帮助.关于
Latent Semantic Analysis这个问题.
您还可以在Soundex中查找“发音相似”的单词.