nlp – 字节与字符与单词 – n-gram的粒度?

前端之家收集整理的这篇文章主要介绍了nlp – 字节与字符与单词 – n-gram的粒度?前端之家小编觉得挺不错的,现在分享给大家,也给大家做个参考。
至少可以考虑使用3种类型的n-gram来表示文本文档:

>字节级n-gram
>字符级n-gram
>字级n-gram

我不清楚哪一个应该用于给定的任务(聚类,分类等).我在某处读到,当文字包含拼写错误时,字符级别的n-gram优于字级n-gram,因此“Mary loves dogs”仍然类似于“Mary lpves dogs”.

选择“正确”表示还有其他标准需要考虑吗?

解决方法

评估.选择表示的标准是任何有效的.

实际上,字符级别(!=字节,除非你只关心英语)可能是最常见的表示,因为它对于拼写差异很强大(如果你看历史记录,则不需要是错误;拼写更改).因此,对于拼写纠正目的,这很有效.

另一方面,Google Books n-gram查看器在其图书语料库中使用单词级别n-gram.因为他们不想分析拼写,而是长期使用术语;例如“儿童保育”,其中的单词并不像他们的组合那样有趣.这被证明在机器翻译中非常有用,通常被称为“冰箱磁铁模型”.

如果您不处理国际语言,字节也可能有意义.

猜你在找的HTML相关文章