频道导航

屏幕抓取 – Perl：来自经过身份验证的网站的HTML Scraping

2020-09-24 Perl 前端之家

前端之家收集整理的这篇文章主要介绍了屏幕抓取 – Perl：来自经过身份验证的网站的HTML Scraping，前端之家小编觉得挺不错的，现在分享给大家，也给大家做个参考。

虽然 HTML Scraping从我所看到的内容中得到了很好的记录,并且我理解了它的概念和实现,但是从隐藏在身份验证表单后面的内容中抓取的最佳方法是什么.我指的是从我合法访问的内容中抓取,所以我正在寻找一种自动提交登录数据的方法.

我能想到的只是设置代理,从手动登录中捕获吞吐量,然后设置脚本以欺骗吞吐量,作为HTML抓取执行的一部分.就语言而言,可能会在Perl中完成.

有没有人有这方面的经验,或只是一般的想法？

编辑
这是answered before但是使用.NET.虽然它验证了我认为应该如何完成,但有没有人有Perl脚本来执行此操作？

解决方法

查看Perl WWW::Mechanize库 – 它建立在LWP之上,提供用于完成您所引用的那种交互的工具,并且它可以在您处理cookie时保持状态！

WWW::Mechanize,or Mech for short,helps you automate interaction with a website. It supports performing a sequence of page fetches including following links and submitting forms. Each fetched page is parsed and its links and forms are extracted. A link or a form can be selected,form fields can be filled and the next page can be fetched. Mech also stores a history of the URLs you’ve visited,which can be queried and revisited.

上一篇：如何使用Perl从LDAP服务器下载用户下一篇：perldoc perlxxx选项有哪些？

猜你在找的Perl相关文章

漫谈 Perl 的 web 应用开发框架

忍不住在 PerlChina 邮件列表中盘点了一下 Perl 里的 Web 应用框架（巧的是 PerlBuzz 最近...

作者：前端之家时间：2020-08-13

perl中bless的理解

bless有两个参数：对象的引用、类的名称。类的名称是一个字符串，代表了类的类型信息，这...

作者：前端之家时间：2020-08-13

PERL GB2312 UTF-8 编码转换

gb2312转Utf的方法： use Encode; my $str = "中文"; $str_cnsoftware = encode(&...

作者：前端之家时间：2020-08-13

perl 计算硬盘利用率

perl 计算硬盘利用率，以%来查看硬盘资源是否存在IO消耗cpu资源情况；部份代码参考了...

作者：前端之家时间：2020-08-13

1 简单变量 Perl 的 Hello World 是怎么写的呢？请看下面的程序： #!/usr/bin/perl print ...

作者：前端之家时间：2020-08-13

Perl 中的正则表达式

正则表达式是 Perl 语言的一大特色，也是 Perl 程序中的一点难点，不过如果大家能够很好的...

作者：前端之家时间：2020-08-13

Perl和Shell区别

在学习Perl和Shell时，有很多人可能会问这样一个问题，到底先学习哪个或者学习哪个更好！ ...

作者：前端之家时间：2020-08-13

Perl命令行应用介绍

Perl 有很多命令行参数. 通过它, 我们有机会写出更简单的程序. 在这篇文章里我们来了解...

作者：前端之家时间：2020-08-13

perl的特殊变量

转自： http://bbs.chinaunix.net/thread-1191868-1-1.html# 让你的perl代码看起来更像per...

作者：前端之家时间：2020-08-13

Perl BackConnectShell + Rootlab t00l

2009-02-02 13:07 #!/usr/bin/perl # D.O.M TEAM - 2007 # anonyph; arp; ka0x; xarnuz # ...

作者：前端之家时间：2020-08-13

编程分类

PHP Java Java SE Python C#C&C++Ruby VB asp.Net Go Perl netty Django Delphi Jsp .NET Core Spring Flask Springboot SpringMVC Lua Laravel Mybatis Asp Groovy ThinkPHP Yii swoole

最新文章