我正在寻找一个命令行程序,它将打印出PDF文件的文本,就像文本文件的cat一样.我很确定这样的事情存在,因为我记得几个月前使用它.我本可以发誓这是pdfcat,但这只是一个合并的实用程序.我找到了pdftotxt,这是可行的,但我更喜欢复制cat功能的东西,因为我想管道grep.谢谢!
最佳答案
在pdftotext的手册页上,我发现了这个:
pdftotext [options] [PDF-file [text-file]]
Description
Pdftotext converts Portable Document Format (PDF) files to plain text.Pdftotext reads the PDF file,PDF-file,and writes a text file,text-file. If text-file is not specified,pdftotext converts file.pdf to file.txt. If text-file is ‘-‘,the text is sent to stdout.
因此,如果您的目标是输出到stdout以便管道转换为grep,pdftotext mydoc.pdf – 应该像cat mytext.txt一样工作,因此pdftotext mydoc.pdf – | grep mysearchterm