我在一个具有特定结构的文件夹中有多个PDF文档:
现在我希望能够解析PDF中的信息.请注意,这些段落的长度各不相同.
显然我并没有要求你为我解决问题,但我确实需要一些关于如何实现这一目标的指示.
我之前使用过nokogiri,技术上我需要类似的东西,但是对于PDF.
所以我的例子的伪结果看起来像这样:
- ItemA - Title: ItemA - File: 123456789.pdf - Image: ImageA.png (the image was stored on disk) - Subtitle1: Content for subtitle 1 - Subtitle2: Content for subtitle 2 - Subtitle3: Content for subtitle 3 - TitleB - [...]
解决方法
pdf-reader是解决方案之一.但它有问题有时它不会以适当的格式提供文本.我用过它.
我建议使用docsplit.您可以在this blog post找到有关’pdf-reader’和’docsplit’的更多信息.
希望这可以帮助.如果需要任何澄清,请随时发表评论.