任何人知道他们可以推荐什么,以便只提取来自.doc或.docx的纯文本?
我发现这个Best way to extract text from a Word doc without using COM/automation? – 想知道是否有任何其他建议吗?
速度并不重要,我们甚至可以使用一个网站,有一些API上传和解压缩文件,但我一直无法找到一个。
谢谢
如果你想纯纯文本(我的要求),那么你需要的是
unzip -p some.docx word/document.xml | sed -e 's/<[^>]\{1,\}>//g; s/[^[:print:]]\{1,\}//g'
我在command line fu发现