频道导航

在perl中解析pdf

2020-09-26 Perl 前端之家

前端之家收集整理的这篇文章主要介绍了在perl中解析pdf，前端之家小编觉得挺不错的，现在分享给大家，也给大家做个参考。

我试图从pdf中提取一些信息.我正在尝试使用CAM :: PDF模块中的getpdftext.pl.当我运行$~getpdftext.pl sample.pdf时,它会生成pdf到stdout的文本.

但我正在考虑将其写入文本文件并解析perl中的必填字段.有人可以指导我如何做到这一点？

但是当我尝试在我的perl脚本中调用pdftotext.pl时,我得到一个No No file错误.

#program从pdf中提取文本并将其保存在文本文件中

use PDF;

use CAM::PDF;

use CAM::PDF::PageText;

use warnings;

use IPC::System::Simple qw(system capture);

$filein = 'sample.pdf';                                                                   
$fileout = 'output1.txt';  

open OUT,">$fileout" or die "error: $!";

open IN,"getpdftext.pl $filein" or die "error :$!" ;

while(<IN>)
{
    print OUT $fileout;
}

解决方法

让getpdftext.pl做你想做的事可能会更容易.

使用getpdftext.pl中的代码,这个(未经测试的代码)应该将pdf输出到文本文件.

my $filein = 'sample.pdf';                                                                   
my $fileout = 'output1.txt';  

my $doc = CAM::PDF->new($filein) || die "$CAM::PDF::errstr\n";
open my $fo,'>',$fileout or die "error: $!";

foreach my $p ( 1 .. $doc->numPages() ) {
    my $str = $doc->getPageText($p);
    if (defined $str) {
       CAM::PDF->asciify(\$str);
       print $fo $str;
    }
}

close $fo;

上一篇：交叉编译Perl或期望MIPS处理器下一篇：用于数据类型检查的Perl框架

猜你在找的Perl相关文章

漫谈 Perl 的 web 应用开发框架

忍不住在 PerlChina 邮件列表中盘点了一下 Perl 里的 Web 应用框架（巧的是 PerlBuzz 最近...

作者：前端之家时间：2020-08-13

perl中bless的理解

bless有两个参数：对象的引用、类的名称。类的名称是一个字符串，代表了类的类型信息，这...

作者：前端之家时间：2020-08-13

PERL GB2312 UTF-8 编码转换

gb2312转Utf的方法： use Encode; my $str = "中文"; $str_cnsoftware = encode(&...

作者：前端之家时间：2020-08-13

perl 计算硬盘利用率

perl 计算硬盘利用率，以%来查看硬盘资源是否存在IO消耗cpu资源情况；部份代码参考了...

作者：前端之家时间：2020-08-13

1 简单变量 Perl 的 Hello World 是怎么写的呢？请看下面的程序： #!/usr/bin/perl print ...

作者：前端之家时间：2020-08-13

Perl 中的正则表达式

正则表达式是 Perl 语言的一大特色，也是 Perl 程序中的一点难点，不过如果大家能够很好的...

作者：前端之家时间：2020-08-13

Perl和Shell区别

在学习Perl和Shell时，有很多人可能会问这样一个问题，到底先学习哪个或者学习哪个更好！ ...

作者：前端之家时间：2020-08-13

Perl命令行应用介绍

Perl 有很多命令行参数. 通过它, 我们有机会写出更简单的程序. 在这篇文章里我们来了解...

作者：前端之家时间：2020-08-13

perl的特殊变量

转自： http://bbs.chinaunix.net/thread-1191868-1-1.html# 让你的perl代码看起来更像per...

作者：前端之家时间：2020-08-13

Perl BackConnectShell + Rootlab t00l

2009-02-02 13:07 #!/usr/bin/perl # D.O.M TEAM - 2007 # anonyph; arp; ka0x; xarnuz # ...

作者：前端之家时间：2020-08-13

编程分类

PHP Java Java SE Python C#C&C++Ruby VB asp.Net Go Perl netty Django Delphi Jsp .NET Core Spring Flask Springboot SpringMVC Lua Laravel Mybatis Asp Groovy ThinkPHP Yii swoole

最新文章