如何使用cgi python脚本在浏览器中显示pdf文件内容及其全名?

前端之家收集整理的这篇文章主要介绍了如何使用cgi python脚本在浏览器中显示pdf文件内容及其全名?前端之家小编觉得挺不错的,现在分享给大家,也给大家做个参考。

我希望显示pdf文件的完整路径及其在浏览器上显示内容.我的脚本有一个输入html,用户将输入文件名并提交表单.该脚本将搜索文件,如果在子目录中找到该文件,则将文件内容输出到浏览器中并显示名称.我能够显示内容,但也无法同时显示完整的名字.如果我显示文件名,我会看到内容垃圾字符显示.请指导.

enter link description here

脚本a.py:

  1. import os
  2. import cgi
  3. import cgitb
  4. cgitb.enable()
  5. import sys
  6. import webbrowser
  7. def check_file_extension(display_file):
  8. input_file = display_file
  9. nm,file_extension = os.path.splitext(display_file)
  10. return file_extension
  11. form = cgi.FieldStorage()
  12. type_of_file =''
  13. file_nm = ''
  14. nm =''
  15. not_found = 3
  16. if form.has_key("file1"):
  17. file_nm = form["file1"].value
  18. type_of_file = check_file_extension(file_nm)
  19. pdf_paths = [ '/home/nancy/Documents/',]
  20. # Change the path while executing on the server,else it will throw error 500
  21. image_paths = [ '/home/nancy/Documents/']
  22. if type_of_file == '.pdf':
  23. search_paths = pdf_paths
  24. else:
  25. # .jpg
  26. search_paths = image_paths
  27. for path in search_paths:
  28. for root,dirnames,filenames in os.walk(path):
  29. for f in filenames:
  30. if f == str(file_nm).strip():
  31. absolute_path_of_file = os.path.join(root,f)
  32. # print 'Content-type: text/html\n\n'
  33. # print '

html是一个常规的html,文件名只有1个输入字段.

最佳答案
这不可能.至少不那么简单.某些Web浏览器不显示PDF但要求用户下载文件,有些会自己显示文件,有些则嵌入外部PDF查看器组件,有些则启动外部PDF查看器.没有标准的跨浏览器方式将PDF嵌入到HTML中,如果要显示任意文本和PDF内容,则需要这样做.

在每个浏览器上工作的后备解决方案是将服务器上的PDF页面呈现为图像并将其提供给客户端.这给服务器带来了一些压力(处理器,内存/磁盘用于缓存,带宽).

一些支持HTML5的现代浏览器可以在canvas元素上呈现带有Mozilla’s pdf.js的PDF.

对于其他人,您可以尝试使用< embed> /< object>使用Adobe的插件作为described on Adobe’s The PDF Developer Junkie Blog.

在服务器上呈现页面

渲染和提供PDF页面作为图像需要服务器上的一些软件来查询页面数量提取和呈现给定页面作为图像.

可以使用Xpdf或libpoppler命令行实用程序中的pdfinfo程序确定页数.将页面从PDF文件转换为JPG图像可以通过ImageMagick工具转换完成.使用这些程序的一个非常简单的CGI程序:

  1. #!/usr/bin/env python
  2. import cgi
  3. import cgitb; cgitb.enable()
  4. import os
  5. from itertools import imap
  6. from subprocess import check_output
  7. PDFINFO = '/usr/bin/pdfinfo'
  8. CONVERT = '/usr/bin/convert'
  9. DOC_ROOT = '/home/bj/Documents'
  10. BASE_TEMPLATE = (
  11. 'Content-type: text/html\n\n'
  12. '

libpoppler有Python绑定,因此可以很容易地用该模块替换对外部pdfinfo程序的调用.它还可以用于提取页面的更多信息,例如PDF页面上的链接,以便为它们创建HTML图像映射.安装了libcairo Python绑定后,甚至可以在没有外部进程的情况下进行页面呈现.

猜你在找的HTML相关文章