最近在做网页转码,过程中,出现了各种问题,其中一个让我痛苦了一天多。
首先用HttpClient读取网页,再用Jtidy将读取的源代码写成XML,之后再根据XSLT制作的模板转成我们想要的WML网页,这是这段时间想的思路。想法是好的,现在是残酷的,问题一个接一个地出现,最让我烦的是,读取的html网页是有命名空间的,即<html xmlns="http://www.w3.org/1999/xhtml">。如果用Dom4j框架的话:rootElement.remove(new Namespace(rootElement.getNamespacePrefix(),rootElement.getNamespaceURI())即删除这个html的命名空间的话,就会在head、body上又生成命名空间,这时候还是一头空,想来想去应该是xslt的问题,发现网上也有这样的问题,只需要在xsl文件上写上对应的命名空间就行了:
<xsl:stylesheet version="1.0" xmlns:xsl="http://www.w3.org/1999/XSL/Transform" xmlns:i="http://www.w3.org/1999/xhtml">
<xsl:for-each select="i:html/i:body/i:div/i:div/i:div">
<div style="background-color: #BFE3FF; color: #000000; margin: 4px 0;">
<div style="font-weight:bold;" >
<p><xsl:value-of select="i:p"/></p>
</div>
</div>
</xsl:for-each>