我过去曾使用过BeautifulSoup,但我反对新事物;令人难以置信的通用/最小的HTML表格标记…我的目标是获取每个值和它的标签(每个都在自己的td中)并打印出来……它们可以合并,我不在乎,我只是想制作确保每个标签都应用于正确的值.这是一个示例表:
我知道如何抓住这些价值……
for td in soup.findAll('table')[0]: # theres more than one table on the page
print td.renderContents().strip()
但这只给了我……
'Dawn:'
'07:01'
'Sunrise:'
'07:26'
'Moonrise:'
'14:29'
'
我想我可以抓住那些类值“标签”和“site_data”,但我如何确保标签和数据分组正确?
最佳答案
以下内容应该更简单,更容易理解:
import pprint
from BeautifulSoup import BeautifulSoup
soup = BeautifulSoup(docTxt)
groupedData = []
for row in soup.findAll("tr"):
data = {}
allTDs = row.findAll("td")
for x in range(0,len(allTDs)-1,2):
data[allTDs[x].renderContents().strip()] = allTDs[x+1].renderContents().strip()
groupedData.append(data)
pprint.pprint(groupedData)
输出:
[{'Dawn:': '07:01','Moonrise:': '14:29','Sunrise:': '07:26'},{'Dusk:': '18:27','Moonset:': '01:55','Sunset: ': '18:02'},{'Day length:': '10:36','Daylight:': '11:26','Moon Phase:': 'Waxing Gibbous'}]
猜你在找的Python相关文章