我有一个HTML文件(以utf-8编码).我用codecs.open()打开它.文件架构是:
我只需要检索第一个表(丢弃一个表格).在第一个< table>之前省略所有输入并在相应的< / table>之后.一些单元格还包含段落,粗体和脚本.每行主表只有一个嵌套表.
如何提取它以获取行列表,其中每个元素包含普通(unicode字符串)单元格的数据和每个嵌套表格的行列表?嵌套不超过1级.
我尝试了HTMLParse,PyParse和re模块,但无法实现这一点.
我是Python的新手.
最佳答案
试试beautiful soup
原文链接:https://www.f2er.com/html/426640.html原则上你需要使用一个真正的解析器(Beaut.Soup是),正则表达式无法处理嵌套元素,因为计算机科学原因(有限状态机无法解析无上下文语法,IIRC)