我有一个包含小型
HTML文档的数据库,我需要以编程方式将几个插入到带有iText的PDF文档或带有Aspose.Words的Word文档中.我需要保留HTML文档中的任何格式(在合理范围内,尊重< b>标记是必须的,像< span style =“blah”>这样的CSS是一个不错的选择).
iText和Aspose都可以(粗略地)工作:
Document document = new Document( Size.A4,Aspect.PORTRAIT ); document.setFont( "Helvetica",20,Font.BOLD ); document.insert( "some string" ) document.setBold( true ); document.insert( "A bold string" );
因此(我认为)我需要某种HTML解析器,我可以检查字符串和样式以插入到我的文档中.
解决方法
HTMLparser是一个很好的HTML解析器.
我用它来解析我的一个项目上的HTML.
你可以编写自己的过滤器来解析你想要的HTML,所以
<峰; br>标签应该不难解析出来
你可以在CssSelectorNodeFilter解析CSS