频道导航

如何从Perl中的PDF文件中提取文本？

2019-07-22 Perl 前端之家

前端之家收集整理的这篇文章主要介绍了如何从Perl中的PDF文件中提取文本？，前端之家小编觉得挺不错的，现在分享给大家，也给大家做个参考。

我正在尝试使用Perl从PDF文件中提取文本。我一直在使用pdftotext.exe从命令行(即使用Perl系统功能)从PDF文件提取文本，这种方法工作正常。

问题是我们在PDF文件中有像α，β和其他特殊字符的符号，它们不会在生成的txt文件中显示。文本中也随机添加了一些额外的空格。

是否有更好和更可靠的方式从PDF文件中提取文本，使文本将包括像α，β等所有符号，文本将完全匹配PDF中的文本(即没有额外的空格)？

解决方法

这些模块可以从pdf中获取提取文本

CAM::PDF::PageText

从CPAN

my $pdf = CAM::PDF->new($filename);
   my $pageone_tree = $pdf->getPageContentTree(1);
   print CAM::PDF::PageText->render($pageone_tree);

此模块尝试从PDF页面中提取顺序文本。这不是一个健壮的过程，因为PDF文本以任意顺序图形化显示。该模块使用几个启发式方法来尝试猜测什么文本旁边的其他文本，但可能会被容易地被愚弄，例如，下标，非水平文本，字体的更改，表单域等。

除了这些免责声明外，它可以从简单的PDF文件快速转储文本。

上一篇：如何调用我在同一个文件中定义的Pe 下一篇：如何自动整理Perl源代码？

猜你在找的Perl相关文章

漫谈 Perl 的 web 应用开发框架

忍不住在 PerlChina 邮件列表中盘点了一下 Perl 里的 Web 应用框架（巧的是 PerlBuzz 最近...

作者：前端之家时间：2020-08-13

perl中bless的理解

bless有两个参数：对象的引用、类的名称。类的名称是一个字符串，代表了类的类型信息，这...

作者：前端之家时间：2020-08-13

PERL GB2312 UTF-8 编码转换

gb2312转Utf的方法： use Encode; my $str = "中文"; $str_cnsoftware = encode(&...

作者：前端之家时间：2020-08-13

perl 计算硬盘利用率

perl 计算硬盘利用率，以%来查看硬盘资源是否存在IO消耗cpu资源情况；部份代码参考了...

作者：前端之家时间：2020-08-13

1 简单变量 Perl 的 Hello World 是怎么写的呢？请看下面的程序： #!/usr/bin/perl print ...

作者：前端之家时间：2020-08-13

Perl 中的正则表达式

正则表达式是 Perl 语言的一大特色，也是 Perl 程序中的一点难点，不过如果大家能够很好的...

作者：前端之家时间：2020-08-13

Perl和Shell区别

在学习Perl和Shell时，有很多人可能会问这样一个问题，到底先学习哪个或者学习哪个更好！ ...

作者：前端之家时间：2020-08-13

Perl命令行应用介绍

Perl 有很多命令行参数. 通过它, 我们有机会写出更简单的程序. 在这篇文章里我们来了解...

作者：前端之家时间：2020-08-13

perl的特殊变量

转自： http://bbs.chinaunix.net/thread-1191868-1-1.html# 让你的perl代码看起来更像per...

作者：前端之家时间：2020-08-13

Perl BackConnectShell + Rootlab t00l

2009-02-02 13:07 #!/usr/bin/perl # D.O.M TEAM - 2007 # anonyph; arp; ka0x; xarnuz # ...

作者：前端之家时间：2020-08-13

编程分类

PHP Java Java SE Python C#C&C++Ruby VB asp.Net Go Perl netty Django Delphi Jsp .NET Core Spring Flask Springboot SpringMVC Lua Laravel Mybatis Asp Groovy ThinkPHP Yii swoole

最新文章