android – Tesseract的自定义词典

前端之家收集整理的这篇文章主要介绍了android – Tesseract的自定义词典前端之家小编觉得挺不错的,现在分享给大家,也给大家做个参考。
我目前正在使用tesseract OCR为 Android开发项目.我希望通过添加字典来微调给用户的结果.根据 http://code.google.com/p/tesseract-ocr/wiki/FAQ,最好的办法是

Replace tessdata/eng.user-words with your own word list,in the same
format – UTF8 text,one word per line.

但是在tessdata文件夹中没有eng.user-words文件,我假设如果我只是用一个文本文件与我的字典,它永远不会被使用..

有谁有类似的经验,知道该怎么办?任何建议将是一个很大的帮助.

解决方法

如果你使用tesseract 3(我假设你是).
你必须重建你的eng.trainddata文件
我打算用完全替换word-dawg文件来尝试获得更好的结果(即 – 我检测的字总是相同的).

当您编译tesseract时,您将需要在训练目录中的combine_tessdata和wordlist2dawg可执行文件.

>打开所有东西(我做了这个只是为了备份我的eng.word-dawg,你还需要unicharset)

./combine_tessdata -u eng.traineddata
>创建一个wordlist文本文件(wordlistfile)
>创建一个eng.word-dawg

./wordlist2dawg wordlistfile eng.word-dawg traineddat_backup / .unicharset
>替换word-dawg文件

./combine_tessdata -o eng.traineddata eng.word-dawg

应该是

猜你在找的Android相关文章