用PHP读取和编写XML DOM的实现代码

前端之家收集整理的这篇文章主要介绍了用PHP读取和编写XML DOM的实现代码前端之家小编觉得挺不错的,现在分享给大家,也给大家做个参考。

PHP 读取和编写可扩展标记语言(XML)看起来可能有点恐怖。实际上,XML 和它的所有相关技术可能是恐怖的,但是用 PHP 读取和编写 XML 不一定是项恐怖的任务。首先,需要学习一点关于 XML 的知识 —— 它是什么,用它做什么。然后,需要学习如何用 PHP 读取和编写 XML,而有许多种方式可以做这件事。
本文提供了 XML 的简短入门,然后解释如何用 PHP 读取和编写 XML。

什么是 XML?

XML 是一种数据存储格式。它没有定义保存什么数据,也没有定义数据的格式。XML 只是定义了标记和这些标记属性。格式良好的 XML 标记看起来像这样:
Jack Herrington
这个 标记包含一些文本:Jack Herrington。
不包含文本的 XML 标记看起来像这样:

用 XML 对某件事进行编写的方式不止一种。例如,这个标记形成的输出与前一个标记相同:

也可以向 XML 标记添加属性。例如,这个 标记包含 first 和 last 属性

也可以用 XML 对特殊字符进行编码。例如,& 符号可以像这样编码:
&
包含标记属性的 XML 文件如果像示例一样格式化,就是格式良好的,这意味着标记是对称的,字符的编码正确。清单 1 是一份格式良好的 XML 的示例。

清单 1. XML 图书列表示例

<div class="codetitle"><a style="CURSOR: pointer" data="45693" class="copybut" id="copybut45693" onclick="doCopy('code45693')"> 代码如下:
<div class="codebody" id="code45693">


Jack Herrington
PHP Hacks
O'Reilly


Jack Herrington
Podcasting Hacks
O'Reilly



清单 1 中的 XML 包含一个图书列表。父标记 包含一组 标记,每个 标记又包含 和 <publisher> 标记。 <BR>当 XML 文档的标记结构和内容得到外部模式文件的验证后,XML 文档就是正确的。模式文件可以用不同的格式指定。对于本文来说,所需要的只是格式良好的 XML。 <BR>如果觉得 XML 看起来很像超文本标记语言(HTML),那么就对了。XML 和 HTML 都是基于标记的语言,它们有许多相似之处。但是,要着重指出的是:虽然 XML 文档可能是格式良好的 HTML,但不是所有的 HTML 文档都是格式良好的 XML。换行标记(br)是 XML 和 HTML 之间区别的一个好例子。这个换行标记是格式良好的 HTML,但不是格式良好的 XML: <BR><p>This is a paragraph<br> <BR>With a line break</p> <BR>这个换行标记是格式良好的 XML 和 HTML: <BR><p>This is a paragraph<br /> <BR>With a line break</p> <BR>如果要把 HTML 编写成同样是格式良好的 XML,请遵循 W3C 委员会的可扩展超文本标记语言(XHTML)标准。所有现代的浏览器都能呈现 XHTML。而且,还可以用 XML 工具读取 XHTML 并找出文档中的数据,这比解析 HTML 容易得多。 <BR><h3>使用 DOM 库读取 XML</h3> <BR>读取格式良好的 XML 文件最容易的方式是使用编译成某些 PHP 安装的文档对象模型 (DOM)库。DOM 库把整个 XML 文档读入内存,并用节点树表示它,如图 1 所示。 <BR>图 1. 图书 XML 的 XML DOM 树 <BR><IMG src="http:<a href="https://files.jb51.cc/upload/201102/20110203151600791.gif"&gt">https://files.jb51.cc/upload/201102/20110203151600791.gif"&gt</a>;<BR>树顶部的 books 节点有两个 book 子标记。在每本书中,有 author、publisher 和 title 几个节点。author、publisher 和 title 节点分别有包含文本的文本子节点。 <BR>读取图书 XML 文件并用 DOM 显示内容的代码如清单 2 所示。 <BR>清单 2. 用 DOM 读取图书 XML <BR><div class="codetitle"><span><a style="CURSOR: pointer" data="37407" class="copybut" id="copybut37407" onclick="doCopy('code37407')"><U></U></a> <a href="/tag/daima/" target="_blank" class="keywords">代码</a>如下:</div><div class="codebody" id="code37407"> <BR><?<a href="/tag/PHP/" target="_blank" class="keywords">PHP</a> <BR>$doc = new DOMDocument(); <BR>$doc->load( 'books.xml' ); <BR>$books = $doc->getElementsByTagName( "book" ); <BR>foreach( $books as $book ) <BR>{ <BR>$authors = $book->getElementsByTagName( "author" ); <BR>$author = $authors->item(0)->nodeValue; <BR>$publishers = $book->getElementsByTagName( "publisher" ); <BR>$publisher = $publishers->item(0)->nodeValue; <BR>$titles = $book->getElementsByTagName( "title" ); <BR>$title = $titles->item(0)->nodeValue; <BR>echo "$title - $author - $publisher\n"; <BR>} <BR>?> <BR></div> <BR>脚本首先创建一个 new DOMdocument 对象,用 load <a href="/tag/fangfa/" target="_blank" class="keywords">方法</a>把图书 XML 装入这个对象。之后,脚本用 getElementsByName <a href="/tag/fangfa/" target="_blank" class="keywords">方法</a>得到指定<a href="/tag/mingcheng/" target="_blank" class="keywords">名称</a>下的所有元素的列表。 <BR>在 book 节点的循环中,脚本用 getElementsByName <a href="/tag/fangfa/" target="_blank" class="keywords">方法</a>获得 author、publisher 和 title <a href="/tag/biaoji/" target="_blank" class="keywords">标记</a>的 nodeValue。nodeValue 是节点中的文本。脚本然后<a href="/tag/xianshi/" target="_blank" class="keywords">显示</a>这些值。 <BR>可以在命令行上像这样运行 <a href="/tag/PHP/" target="_blank" class="keywords">PHP</a> 脚本: <BR>% <a href="/tag/PHP/" target="_blank" class="keywords">PHP</a> e1.<a href="/tag/PHP/" target="_blank" class="keywords">PHP</a> <BR><a href="/tag/PHP/" target="_blank" class="keywords">PHP</a> Hacks - Jack Herrington - O'Reilly <BR>Podcasting Hacks - Jack Herrington - O'Reilly <BR>% <BR>可以看到,每个图书块<a href="/tag/shuchu/" target="_blank" class="keywords">输出</a>一行。这是一个良好的开始。但是,如果不能访问 XML DOM 库该怎么办? <BR>用 SAX 解析器读取 XML <BR>读取 XML 的另一种<a href="/tag/fangfa/" target="_blank" class="keywords">方法</a>是使用 XML Simple API(SAX)解析器。<a href="/tag/PHP/" target="_blank" class="keywords">PHP</a> 的大多数安装都包含 SAX 解析器。SAX 解析器运行在回调模型上。每次打开或<a href="/tag/guanbi/" target="_blank" class="keywords">关闭</a>一个<a href="/tag/biaoji/" target="_blank" class="keywords">标记</a>时,或者每次解析器看到文本时,就用节点或文本的信息回<a href="/tag/diaoyong/" target="_blank" class="keywords">调用</a>户定义的<a href="/tag/hanshu/" target="_blank" class="keywords">函数</a>。 <BR>SAX 解析器的优点是,它是真正轻量级的。解析器不会在内存中长期保持<a href="/tag/neirong/" target="_blank" class="keywords">内容</a>,所以可以用于非常巨大的<a href="/tag/wenjian/" target="_blank" class="keywords">文件</a>。缺点是编写 SAX 解析器回调是件非常麻烦的事。清单 3 <a href="/tag/xianshi/" target="_blank" class="keywords">显示</a>了使用 SAX 读取图书 XML <a href="/tag/wenjian/" target="_blank" class="keywords">文件</a>并<a href="/tag/xianshi/" target="_blank" class="keywords">显示</a><a href="/tag/neirong/" target="_blank" class="keywords">内容</a>的<a href="/tag/daima/" target="_blank" class="keywords">代码</a>。 <BR>清单 3. 用 SAX 解析器读取图书 XML <BR><div class="codetitle"><span><a style="CURSOR: pointer" data="15381" class="copybut" id="copybut15381" onclick="doCopy('code15381')"><U></U></a> <a href="/tag/daima/" target="_blank" class="keywords">代码</a>如下:</div><div class="codebody" id="code15381"> <BR><?<a href="/tag/PHP/" target="_blank" class="keywords">PHP</a> <BR>$g_books = array(); <BR>$g_elem = null; <BR>function startElement( $parser,$name,$attrs ) <BR>{ <BR>global $g_books,$g_elem; <BR>if ( $name == 'BOOK' ) $g_books []= array(); <BR>$g_elem = $name; <BR>} <BR>function endElement( $parser,$name ) <BR>{ <BR>global $g_elem; <BR>$g_elem = null; <BR>} <BR>function textData( $parser,$text ) <BR>{ <BR>global $g_books,$g_elem; <BR>if ( $g_elem == 'AUTHOR' || <BR>$g_elem == 'PUBLISHER' || <BR>$g_elem == 'TITLE' ) <BR>{ <BR>$g_books[ count( $g_books ) - 1 ][ $g_elem ] = $text; <BR>} <BR>} <BR>$parser = xml_parser_create(); <BR>xml_set_element_handler( $parser,"startElement","endElement" ); <BR>xml_set_character_data_handler( $parser,"textData" ); <BR>$f = fopen( 'books.xml','r' ); <BR>while( $data = fread( $f,4096 ) ) <BR>{ <BR>xml_parse( $parser,$data ); <BR>} <BR>xml_parser_free( $parser ); <BR>foreach( $g_books as $book ) <BR>{ <BR>echo $book['TITLE']." - ".$book['AUTHOR']." - "; <BR>echo $book['PUBLISHER']."\n"; <BR>} <BR>?> <BR></div> <BR>脚本首先设置 g_books 数组,它在内存中容纳所有图书和图书信息,g_elem 变量保存脚本目前正在处理的<a href="/tag/biaoji/" target="_blank" class="keywords">标记</a>的<a href="/tag/mingcheng/" target="_blank" class="keywords">名称</a>。然后脚本定义回调<a href="/tag/hanshu/" target="_blank" class="keywords">函数</a>。在这个示例中,回调<a href="/tag/hanshu/" target="_blank" class="keywords">函数</a>是 startElement、endElement 和 textData。在打开和<a href="/tag/guanbi/" target="_blank" class="keywords">关闭</a><a href="/tag/biaoji/" target="_blank" class="keywords">标记</a>的时候,分别<a href="/tag/diaoyong/" target="_blank" class="keywords">调用</a> startElement 和 endElement <a href="/tag/hanshu/" target="_blank" class="keywords">函数</a>。在开始和结束<a href="/tag/biaoji/" target="_blank" class="keywords">标记</a>之间的文本上面,<a href="/tag/diaoyong/" target="_blank" class="keywords">调用</a> textData。 <BR>在这个示例中,startElement <a href="/tag/biaoji/" target="_blank" class="keywords">标记</a>查找 book <a href="/tag/biaoji/" target="_blank" class="keywords">标记</a>,在 book 数组中开始一个新元素。然后,textData <a href="/tag/hanshu/" target="_blank" class="keywords">函数</a>查看当前元素,看它是不是 publisher、title 或 author <a href="/tag/biaoji/" target="_blank" class="keywords">标记</a>。如果是,<a href="/tag/hanshu/" target="_blank" class="keywords">函数</a>就把当前文本放入当前图书。 <BR>为了让解析继续,脚本用 xml_parser_create <a href="/tag/hanshu/" target="_blank" class="keywords">函数</a>创建解析器。然后,设置回调句柄。之后,脚本读取<a href="/tag/wenjian/" target="_blank" class="keywords">文件</a>并把<a href="/tag/wenjian/" target="_blank" class="keywords">文件</a>的大块<a href="/tag/neirong/" target="_blank" class="keywords">内容</a>发送到解析器。在<a href="/tag/wenjian/" target="_blank" class="keywords">文件</a>读取之后,xml_parser_free <a href="/tag/hanshu/" target="_blank" class="keywords">函数</a><a href="/tag/shanchu/" target="_blank" class="keywords">删除</a>解析器。脚本的末尾<a href="/tag/shuchu/" target="_blank" class="keywords">输出</a> g_books 数组的<a href="/tag/neirong/" target="_blank" class="keywords">内容</a>。 <BR>可以看到,这比编写 DOM 的同样<a href="/tag/gongneng/" target="_blank" class="keywords">功能</a>要困难得多。如果没有 DOM 库也没有 SAX 库该怎么办?还有替代方案么? <BR>-------------------------------------------------------------------------------- <BR>回页首 <BR>用正则表达式解析 XML <BR>可以肯定,即使提到这个<a href="/tag/fangfa/" target="_blank" class="keywords">方法</a>,有些工程师也会批评我,但是确实可以用正则表达式解析 XML。清单 4 <a href="/tag/xianshi/" target="_blank" class="keywords">显示</a>了使用 preg_ <a href="/tag/hanshu/" target="_blank" class="keywords">函数</a>读取图书<a href="/tag/wenjian/" target="_blank" class="keywords">文件</a>的示例。 <BR>清单 4. 用正则表达式读取 XML <BR><div class="codetitle"><span><a style="CURSOR: pointer" data="54902" class="copybut" id="copybut54902" onclick="doCopy('code54902')"><U></U></a> <a href="/tag/daima/" target="_blank" class="keywords">代码</a>如下:</div><div class="codebody" id="code54902"> <BR><?<a href="/tag/PHP/" target="_blank" class="keywords">PHP</a> <BR>$xml = ""; <BR>$f = fopen( 'books.xml',4096 ) ) { $xml .= $data; } <BR>fclose( $f ); <BR>preg_match_all( "/\<book>(.<em>?)\<\/book>/s",<BR>$xml,$bookblocks ); <BR>foreach( $bookblocks[1] as $block ) <BR>{ <BR>preg_match_all( "/\<author>(.</em>?)\<\/author>/",<BR>$block,$author ); <BR>preg_match_all( "/\<title>(.<em>?)\<\/title>/",$title ); <BR>preg_match_all( "/\<publisher>(.</em>?)\<\/publisher>/",$publisher ); <BR>echo( $title[1][0]." - ".$author[1][0]." - ". <BR>$publisher[1][0]."\n" ); <BR>} <BR>?> <BR></div> 请注意这个代码有多短。开始时,它把文件读进一个大的字符串。然后用一个 regex 函数读取每个图书项目。最后用 foreach 循环,在每个图书块间循环,并提取出 author、title 和 publisher。 <BR>那么,缺陷在哪呢?使用正则表达式代码读取 XML 的问题是,它并没先进行检查,确保 XML 的格式良好。这意味着在读取之前,无法知道 XML 是否格式良好。而且,有些格式正确的 XML 可能与正则表达式不匹配,所以日后必须修改它们。 <BR>我从不建议使用正则表达式读取 XML,但是有时它是兼容性最好的方式,因为正则表达式函数总是可用的。不要用正则表达式读取直接来自用户的 XML,因为无法控制这类 XML 的格式或结构。应当一直用 DOM 库或 SAX 解析器读取来自用户的 XML。 <BR>-------------------------------------------------------------------------------- <BR>回页首 <BR>用 DOM 编写 XML <BR>读取 XML 只是公式的一部分。该怎样编写 XML 呢?编写 XML 最好的方式就是用 DOM。清单 5 显示了 DOM 构建图书 XML 文件的方式。 <BR>清单 5. 用 DOM 编写图书 XML <BR><div class="codetitle"><span><a style="CURSOR: pointer" data="36339" class="copybut" id="copybut36339" onclick="doCopy('code36339')"><U></U></a> <a href="/tag/daima/" target="_blank" class="keywords">代码</a>如下:</div><div class="codebody" id="code36339"> <BR><?<a href="/tag/PHP/" target="_blank" class="keywords">PHP</a> <BR>$books = array(); <BR>$books [] = array( <BR>'title' => '<a href="/tag/PHP/" target="_blank" class="keywords">PHP</a> Hacks',<BR>'author' => 'Jack Herrington',<BR>'publisher' => "O'Reilly" <BR>); <BR>$books [] = array( <BR>'title' => 'Podcasting Hacks',<BR>'publisher' => "O'Reilly" <BR>); <BR>$doc = new DOMDocument(); <BR>$doc->formatOutput = true; <BR>$r = $doc->createElement( "books" ); <BR>$doc->appendChild( $r ); <BR>foreach( $books as $book ) <BR>{ <BR>$b = $doc->createElement( "book" ); <BR>$author = $doc->createElement( "author" ); <BR>$author->appendChild( <BR>$doc->createTextNode( $book['author'] ) <BR>); <BR>$b->appendChild( $author ); <BR>$title = $doc->createElement( "title" ); <BR>$title->appendChild( <BR>$doc->createTextNode( $book['title'] ) <BR>); <BR>$b->appendChild( $title ); <BR>$publisher = $doc->createElement( "publisher" ); <BR>$publisher->appendChild( <BR>$doc->createTextNode( $book['publisher'] ) <BR>); <BR>$b->appendChild( $publisher ); <BR>$r->appendChild( $b ); <BR>} <BR>echo $doc->saveXML(); <BR>?> <BR></div> 在脚本的顶部,用一些示例图书装入了 books 数组。这个数据可以来自<a href="/tag/yonghu/" target="_blank" class="keywords">用户</a>也可以来自<a href="/tag/shujuku/" target="_blank" class="keywords">数据库</a>。 <BR>示例图书装入之后,脚本创建一个 new DOMDocument,并把根节点 books <a href="/tag/tianjia/" target="_blank" class="keywords">添加</a>到它。然后脚本为每本书的 author、title 和 publisher 创建节点,并为每个节点<a href="/tag/tianjia/" target="_blank" class="keywords">添加</a>文本节点。每个 book 节点的最后一步是重新把它<a href="/tag/tianjia/" target="_blank" class="keywords">添加</a>到根节点 books。 <BR>脚本的末尾用 saveXML <a href="/tag/fangfa/" target="_blank" class="keywords">方法</a>把 XML <a href="/tag/shuchu/" target="_blank" class="keywords">输出</a>到控制台。(也可以用 save <a href="/tag/fangfa/" target="_blank" class="keywords">方法</a>创建一个 XML <a href="/tag/wenjian/" target="_blank" class="keywords">文件</a>。)脚本的<a href="/tag/shuchu/" target="_blank" class="keywords">输出</a>如清单 6 所示。 <BR>清单 6. DOM 构建脚本的<a href="/tag/shuchu/" target="_blank" class="keywords">输出</a> <BR><div class="codetitle"><span><a style="CURSOR: pointer" data="18585" class="copybut" id="copybut18585" onclick="doCopy('code18585')"><U></U></a> <a href="/tag/daima/" target="_blank" class="keywords">代码</a>如下:</div><div class="codebody" id="code18585"> <BR><a href="/tag/PHP/" target="_blank" class="keywords">PHP</a> e4.<a href="/tag/PHP/" target="_blank" class="keywords">PHP</a> <BR><?xml version="1.0"?> <BR><books> <BR><book> <BR><author>Jack Herrington</author> <BR><title>PHP Hacks
O'Reilly


Jack Herrington
Podcasting Hacks
O'Reilly



使用 DOM 的真正价值在于它创建的 XML 总是格式正确的。但是如果不能用 DOM 创建 XML 时该怎么办?
--------------------------------------------------------------------------------
回页首
用 PHP 编写 XML
如果 DOM 不可用,可以用 PHP 的文本模板编写 XML。清单 7 显示了 PHP 如何构建图书 XML 文件。
清单 7. 用 PHP 编写图书 XML
<div class="codetitle"><a style="CURSOR: pointer" data="45289" class="copybut" id="copybut45289" onclick="doCopy('code45289')"> 代码如下:
<div class="codebody" id="code45289">
<?PHP
$books = array();
$books [] = array(
'title' => 'PHP Hacks',
'publisher' => "O'Reilly"
);
?>

<?PHP
foreach( $books as $book )
{
?>

<?php echo( $book['title'] ); ?>
<?php echo( $book['author'] ); ?>

<?php echo( $book['publisher'] ); ?>


<?php
}
?>

脚本的顶部与 DOM 脚本类似。脚本的底部打开 books 标记,然后在每个图书中迭代,创建 book 标记和所有的内部 title、author 和 publisher 标记。
这种方法的问题是对实体进行编码。为了确保实体编码正确,必须在每个项目上调用 htmlentities 函数,如清单 8 所示。
清单 8. 使用 htmlentities 函数对实体编码
<div class="codetitle"><a style="CURSOR: pointer" data="65179" class="copybut" id="copybut65179" onclick="doCopy('code65179')"> 代码如下:
<div class="codebody" id="code65179">

<?PHP
foreach( $books as $book )
{
$title = htmlentities( $book['title'],ENT_QUOTES );
$author = htmlentities( $book['author'],ENT_QUOTES );
$publisher = htmlentities( $book['publisher'],ENT_QUOTES );
?>

<?php echo( $title ); ?>
<?php echo( $author ); ?>
<?php echo( $publisher ); ?>


<?PHP
}
?>

这就是用基本的 PHP 编写 XML 的烦人之处。您以为自己创建了完美的 XML,但是在试图使用数据的时候,马上就会发现某些元素的编码不正确。
--------------------------------------------------------------------------------
结束语
XML 周围总有许多夸大之处和混淆之处。但是,并不像您想像的那么难 —— 特别是在 PHP 这样优秀的语言中。在理解并正确地实现了 XML 之后,就会发现有许多强大的工具可以使用。XPath 和 XSLT 就是这样两个值得研究的工具。

DOMXML

猜你在找的PHP相关文章