我目前正在使用scrapy设置一堆蜘蛛.这些蜘蛛应该只从目标网站中提取文本(文章,论坛帖子,段落等).
问题是:有时,我的目标节点包含< script>标签,因此刮下的文本包含javascript代码.
Here is a link到我正在使用的一个真实的例子.在这种情况下,我的目标节点是// td [@ id =’contenuStory’].问题是有一个< script>标记在第一个子div中.
我花了很多时间在网上和SO上搜索解决方案,但我找不到任何东西.我希望我没有错过任何明显的东西!
例
HTML响应(仅限目标节点):
我想要的东西:
Some text
Some other text
我得到了什么:
Some text
var s = 'javascript I don't want';
Some other text
我的代码
def getText(hxs):
if len(hxs) > 0:
l = hxs.select('string(.)')
if len(l) > 0:
s = l[0].extract().encode('utf-8')
else:
s = hxs[0].extract().encode('utf-8')
return s
else:
return 0
我尝试过使用XPath轴(像child :: script这样的东西),但无济于事.
最佳答案
尝试使用w3lib.html中的utils函数:
from w3lib.html import remove_tags,remove_tags_with_content
input = hxs.select('//div[@id="content"]').extract()
output = remove_tags(remove_tags_with_content(input,('script',)))
原文链接:https://www.f2er.com/python/439652.html