<dt> <a href="#">Hello</a> (2009) </dt>
我已经把所有的HTML加载到一个名为record的变量中.如果存在,我需要解析出2009年.
如何获取dt标签内的文本,而不是标签内的文本?我使用了record.search(“dt”).inner_text,这给了我一切.
这是一个微不足道的问题,但我没有想到这一点.
doc.xpath('//dt/text()')
或者如果你想使用搜索:
doc.search('dt').xpath('text()')