我试图使用机械化来解析网站的内容,我被困在某一点上.我要解析的内容位于li标记内,并不总是处于相同的顺序.
让我们假设我们有以下内容,其中li标签的顺序并不总是相同,有些甚至可能根本不存在.
<div class="details"> <ul> <li><span>title 1</span> ": here are the details"</li> <li><span>title 2</span> ": here are the details"</li> <li><span>title 3</span> ": here are the details"</li> <li><span>title 4</span> ": here are the details"</li> </ul> </div>
我想要的只是获取范围文本所示的li详细信息,例如标题3.我所做的是以下内容,它给出了第一个li的详细信息:
puts page.at('.details').at('span',:text => "title 3").at("+ *").text
有没有办法用机械化做我想做的事情,还是我还应该用其他方法?