1.xml文件的数据如下:
<PERSONS> <haha> <person> <id>100000</id> <sex>男</sex> <address>北京,海淀区</address> <fansNum>437</fansNum> <summary>1989</summary> <wbNum>333</wbNum> <gzNum>242</gzNum> <blog>null</blog> <edu>大学</edu> <work></work> <renZh>1</renZh> <brithday>2月14日</brithday> </person> <person> <id>100001</id> <sex>男</sex> <address>北京,海淀区</address> <fansNum>427</fansNum> <summary>1991</summary> <wbNum>333</wbNum> <gzNum>242</gzNum> <blog>null</blog> <edu>大学</edu> <work></work> <renZh>1</renZh> <brithday>3月14日</brithday> </person> </haha> </PERSONS>
现要将个人数据保存到文件,使用sax模块进行处理,代码如下。
# coding: utf-8 import sys,os reload(sys) sys.setdefaultencoding('utf-8') from xml.sax import handler,parseString class PersonHandler(handler.ContentHandler): def __init__(self,fp): self.fp = fp self.person = [] self.current_tag = "" self.flag = 0 def startElement(self,name,attr): if name == "person": self.person = [] self.current_tag = name self.flag = 1 def endElement(self,name): if name == "person": for value in self.person: if value.keys()[0] != 'person': print >>self.fp,value.keys()[0]+":"+str(value.values()[0])+"|",print >>self.fp self.flag = 0 def characters(self,content): if self.flag: self.person.append({self.current_tag: content}) if __name__ == "__main__": f = open("1.xml") fp = open('data','w') parseString(f.read(),PersonHandler(fp)) f.close() fp.close()
xml.sax中主要有两个函数用来处理xml。
parse(source,handler,errorHandler=<xml.sax.handler.ErrorHandler instance>)
source:file object、file-like object。
handler:ContentHandler、child class for ContentHandler。
parseString(string,errorHandler=<xml.sax.handler.ErrorHandler instance>)
区别:区别主要在于数据的来源,第一个函数数据来源于IO数据流,第二个函数来源于字符串。
xml.sax默认的handler是ContentHandler,这个handler包含了事件回调器。一般会对这个类的回调器进行重写来进行数据处理。
expat的解析过程与sax类似,稍后会有关于expat的使用方法介绍,你会发现用法非常
相似。