我正在尝试使用Perl从PDF文件中提取文本。我一直在使用pdftotext.exe从命令行(即使用Perl系统功能)从PDF文件提取文本,这种方法工作正常。
问题是我们在PDF文件中有像α,β和其他特殊字符的符号,它们不会在生成的txt文件中显示。文本中也随机添加了一些额外的空格。
是否有更好和更可靠的方式从PDF文件中提取文本,使文本将包括像α,β等所有符号,文本将完全匹配PDF中的文本(即没有额外的空格)?
问题是我们在PDF文件中有像α,β和其他特殊字符的符号,它们不会在生成的txt文件中显示。文本中也随机添加了一些额外的空格。
是否有更好和更可靠的方式从PDF文件中提取文本,使文本将包括像α,β等所有符号,文本将完全匹配PDF中的文本(即没有额外的空格)?