我正在处理一个我无法编辑的第三方
PHP库,它已经运行了将近一年.它对远程服务器的响应使用simplexml_load_string.最近,它一直在阻止大量的回应.这是房地产列表的数据Feed,格式如下所示:
<?xml version="1.0"?> <RETS ReplyCode="0" ReplyText="Operation Successful Reference ID: 9bac803e-b507-49b7-ac7c-d8e8e3f3aa89"> <COUNT Records="9506" /> <DELIMITER value="09" /> <COLUMNS> sysid 1 2 3 4 5 6 </COLUMNS> <DATA> 252370080 Residential 0.160 No ADDR0 06051</DATA> <DATA> 252370081 Residential 0.440 Yes ADDR0 06043</DATA> <DATA> 252370082 Residential 1.010 No ADDR0 06023</DATA> <DATA>More tab delimited text</DATA> <!-- snip 9000+ lines --> </RETS>
我下载了一个响应的示例文件(大约22MB),这里我结束了我的调试和理智.两台服务器都运行PHP 5.3.8版,但请注意不同的结果.我确定,我可以这两个文件是一样的(我认为不同的文件大小,strlen,最后50个字符可以解释由Windows换行符额外的回车字符).测试脚本:
error_reporting(-1); ini_set('display_errors',1); $file = 'error-example.xml'; $xml = file_get_contents($file); echo 'filesize: '; var_dump(filesize($file)); echo 'strlen: '; var_dump(strlen($xml)); echo 'simplexml object? '; var_dump(is_object(simplexml_load_string($xml))); echo 'Last 50 characters: '; var_dump(substr($xml,-50));
在Windows上本地输出:
filesize: int(21893604) strlen: int(21893604) simplexml object? bool(true) Last 50 characters: string(50) "RD DR CT Watertown 203-555-5555 </DATA> </RETS>"
远程UNIX服务器上的输出:
filesize: int(21884093) strlen: int(21884093) simplexml object? Warning: simplexml_load_string(): Entity: line 9511: parser error : internal error in /path/to/test.PHP on line 19 Warning: simplexml_load_string(): AULTED CEILING IN FOYER,BRICK FP IN FR,NEW FLOORING IN LR DR FR FOYER KITCHEN in /path/to/test.PHP on line 19 Warning: simplexml_load_string(): ^ in /path/to/test.PHP on line 19 Warning: simplexml_load_string(): Entity: line 9511: parser error : Extra content at the end of the document in /path/to/test.PHP on line 19 Warning: simplexml_load_string(): AULTED CEILING IN FOYER,NEW FLOORING IN LR DR FR FOYER KITCHEN in /path/to/test.PHP on line 19 Warning: simplexml_load_string(): ^ in /path/to/test.PHP on line 19 bool(false) Last 50 characters: string(50) "ORD DR CT Watertown 203-555-5555 </DATA> </RETS>"
> XML本身似乎是有效的,只要我能告诉(它在我的系统上工作).
> magic_quotes_runtime绝对是关闭的.
>工作服务器具有libxml版本2.7.7,而另一个具有2.7.6.真的可以有所作为吗?我找不到一个libxml更改日志,但似乎不太可能.
>这似乎只发生在响应/文件超过一定大小时,错误总是发生在下一个最后一行.
>我没有遇到内存问题,测试脚本会立即运行.
如果我知道哪些相关的PHP配置有差异,我可以发布.任何想法可能是什么问题,还是知道其他什么我可能想检查?
libxml2 changelog包含
“608773 add a missing check in xmlGROW (Daniel Veillard)”,这似乎与输入缓冲有关.注意我不了解libxml2内部的任何内容,但似乎可以想象,您已经在2.7.7中修复了一个2.7.6的错误.
当您直接使用simplexml_load_file()时,检查行为是否有所不同,并尝试设置libxml解析器相关选项,例如.
simplexml_load_string($xml,'SimpleXMLElement',LIBXML_COMPACT | LIBXML_PARSEHUGE)
具体来说,您可能需要尝试LIBXML_PARSEHUGE标志.
07002
XML_PARSE_HUGE
flag relaxes any hardcoded limit from the parser. This affects limits like maximum depth of a document or the entity recursion,as well as limits of the size of text nodes.