任何人都有一个很好的解决方案,用于使用Javascript生成的内容(在本例中为HTML表格)抓取页面的HTML源代码?

前端之家收集整理的这篇文章主要介绍了任何人都有一个很好的解决方案,用于使用Javascript生成的内容(在本例中为HTML表格)抓取页面的HTML源代码?前端之家小编觉得挺不错的,现在分享给大家,也给大家做个参考。

任何人都有一个很好的解决方案,用于使用Javascript生成内容(在本例中为HTML表格)抓取页面的HTML源代码

使用Crowbar的一个令人尴尬的简单但可行的解决方案:

PHP
function get_html($url) // $url must be urlencode(d)
{
$context = stream_context_create(array(
    'http' => array('timeout' => 120) // HTTP timeout in seconds
    ));
    $html = substr(file_get_contents('http://127.0.0.1:10000/?url=' . $url . '&delay=3000&view=browser',$context),730,-32); // substr removes HTML from the Crowbar web service,returning only the $url HTML
return $html;
}
?>

使用Crowbar的优势在于,由于基于Mozilla的无头浏览器,表格将被呈现(并且可访问).编辑:发现Crowbar的问题是一个冲突的应用程序,而不是服务器停机时间,这只是一个巧合.

最佳答案
好吧,Java提供了一些方便的解决方案,比如HtmlUint,它可以正确解释Javascript,因此应该允许生成的html可见.

猜你在找的Java相关文章