最初的问题如下,但我更改了标题,因为我认为找到具有相同疑问的其他人会更容易.最后,X
HTML文档是一个
XML文档.
这是一个初学者的问题,但我想知道你认为哪个是在PHP5中解析XHTML文档的最佳库?
我已经使用Tidy从HTML文件(使用Word:S创建)生成了XHTML,并且知道我需要替换它们中的一些元素(比如和元素,替换标签中的一些属性).
我没有非常使用XML,在PHP(Simple XML,DOM等)中解析似乎有很多选项,我不知道是否所有这些都可以做我需要的,这是最简单的一个使用.
对不起我的英语,我是阿根廷人.谢谢!
我有更多的信息:我有很多HTML页面,在Word 97中完成.我使用Tidy进行清理并在XHTML Strict中进行清理,所以现在它们都是XML兼容的.我想使用XML解析器来查找一些元素并替换它们(我这样做的逻辑并不重要).例如,我希望所有页面都使用相同的CSS样式表和类属性,以实现统一的外观.它们都是包含法律文件的静态页面,没什么奇怪的.我应该使用哪些扩展程序? SimpleXML够用吗?我是否应该学习DOM而不是更难?
只是为了解决这里的困惑. PHP有许多XML库,因为PHP4在这方面没有很好的选择.从PHP5开始,您可以选择
SimpleXml,DOM和
sax-based expat parser.后者也存在于PHP4中. PHP4也有一个DOM扩展,这与PHP5的不一样.
DOM和SimpleXml是同一问题域的替代品;他们将文档存入内存并让您以树形结构的形式访问它. DOM是一个相当庞大的api,但它也非常一致,并且它以多种语言实现,这意味着您可以跨语言重用您的知识(例如在Javascript中). SimpleXml最初可能更容易.
SAX解析器是一个不同的野兽.它将xml文档视为标记流.如果您处理非常大的文档,这很有用,因为您不需要将它全部保存在内存中.
对于您的使用,我可能会使用DOM api.