我目前正在使用tesseract OCR为
Android开发项目.我希望通过添加字典来微调给用户的结果.根据
http://code.google.com/p/tesseract-ocr/wiki/FAQ,最好的办法是
Replace tessdata/eng.user-words with your own word list,in the same
format – UTF8 text,one word per line.
但是在tessdata文件夹中没有eng.user-words文件,我假设如果我只是用一个文本文件与我的字典,它永远不会被使用..
有谁有类似的经验,知道该怎么办?任何建议将是一个很大的帮助.
解决方法
如果你使用tesseract 3(我假设你是).
你必须重建你的eng.trainddata文件
我打算用完全替换word-dawg文件来尝试获得更好的结果(即 – 我检测的字总是相同的).
你必须重建你的eng.trainddata文件
我打算用完全替换word-dawg文件来尝试获得更好的结果(即 – 我检测的字总是相同的).
当您编译tesseract时,您将需要在训练目录中的combine_tessdata和wordlist2dawg可执行文件.
>打开所有东西(我做了这个只是为了备份我的eng.word-dawg,你还需要unicharset)
./combine_tessdata -u eng.traineddata
>创建一个wordlist文本文件(wordlistfile)
>创建一个eng.word-dawg
./wordlist2dawg wordlistfile eng.word-dawg traineddat_backup / .unicharset
>替换word-dawg文件
./combine_tessdata -o eng.traineddata eng.word-dawg
应该是