我正在尝试用Python完成一个简单的任务,我是该语言的新手(我是C).我希望有人能指出我正确的方向.
问题:
我有一个充满数据的XML文件(12mb),在文件中有开始标记’xmltag’和结束标记’/ xmltag’,它们代表我想要提取的数据部分的开头和结尾.
我想通过循环浏览这个打开的文件,并为每个实例找到一个开始标记,并将该部分中的数据复制到一个新文件,直到结束标记.我想重复一遍到文件的末尾.
我对文件I / O感到满意,但不是最有效的循环,搜索和提取数据.
我非常喜欢这种语言的外观,希望我能更多地参与其中,这样我就可以回馈社区了.
十分感谢!
最佳答案
检查BeautifulSoup
from BeautifulSoup import BeautifulSoup
with open('bigfile.xml','r') as xml:
soup = BeautifulSoup(xml):
for xmltag in soup('xmltag'):
print xmltag.contents