频道导航

导入搜狗实验室新闻语料库

2020-06-19 XML 前端之家

前端之家收集整理的这篇文章主要介绍了导入搜狗实验室新闻语料库，前端之家小编觉得挺不错的，现在分享给大家，也给大家做个参考。

在搜狗实验室下载的新闻语料库中存储的一条新闻的数据格式是

<doc>
    <url></url>
    <docno></docno>
    <contenttitle></contenttitle>
    <content></content>
</doc>

多条新闻数据就是多个doc的重复

<doc>
    <url></url>
    <docno></docno>
    <contenttitle></contenttitle>
    <content></content>
</doc>
<doc>
    <url></url>
    <docno></docno>
    <contenttitle></contenttitle>
    <content></content>
</doc>

这种文本文件不是标准的xml文件，因为所有的doc节点都直接是最顶层，没有根节点。因此要添加根节点使该文本文件符合xml文件的规范。

但是用notepad++打开后，notepad++就无响应了，过了一会提示文件过大。
然后又尝试用vim打开,仍然非常卡,但是可以在文件开头写入字符，我在嘴上面加入，然后用G命令跳到底部。这时vim也无响应了。

最后我想到可以windows的copy命令将文本文件与语料文件合并来在文件的头部和尾部添加文本。

通过合并文本在文本的前后添加字符

新建一个文本文件head.txt写入

<docs>

新建一个文本文件end.txt写入

</docs>

用copy命令合并文本

copy /b  head.txt + ..\news_sohusite_xml_full.xml  + end.txt  canbeimport.xml

此时生成的文本就一docs文根节点的标准xml文档了。可以用navcat
导入MysqL。
具体操作方法可以参考这个博客 http://www.jb51.cc/article/p-waeebzrp-ng.html 注意在选择编码的时候要根据文本的编码选择。

上一篇：用于比较xml文件的工具或库[closed 下一篇：详解 xml 文件头部的 xmlns:xsi

猜你在找的XML相关文章

10分钟掌握XML、JSON及其解析

引言 NOKIA 有句著名的广告语：“科技以人为本”。任何技术都是为了满足人的生产生活需要而...

作者：前端之家时间：2020-08-12

[CXF REST标准实战系列] 一、JAXB xml与javaBean的转换

Writer：BYSocket（泥沙砖瓦浆木匠）微博：BYSocket 豆瓣：BYSocket Reprint it anywhere...

作者：前端之家时间：2020-08-12

[CXF REST标准实战系列] 一、JAXB xml与javaBean的转换

Writer：BYSocket（泥沙砖瓦浆木匠）微博：BYSocket 豆瓣：BYSocket Reprint it anywhere...

作者：前端之家时间：2020-08-12

10分钟掌握XML、JSON及其解析

http://blog.jobbole.com/79252/ 引言 NOKIA 有句著名的广告语：“科技以人为本”。任何技...

作者：前端之家时间：2020-08-12

自定义圆形控件RoundImageView并认识一下attr.xml

(点击上方公众号，可快速关注) 公众号：smart_android 作者：耿广龙｜loonggg 点击“阅读原...

作者：前端之家时间：2020-08-12

10分钟掌握XML、JSON及其解析

引言 NOKIA 有句著名的广告语：“科技以人为本”。任何技术都是为了满足人的生产生活需要而...

作者：前端之家时间：2020-08-12

10分钟掌握XML、JSON及其解析(上)

(点击上方公众号，可快速关注) 来源： Long Luo 的博客链接：http://longluo.github.i...

作者：前端之家时间：2020-08-12

10分钟掌握XML、JSON及其解析(中)

接上文二、JSON XML很好很强大，但是最近有另外一个时代弄潮儿，这就是JSON。现在JSON的光...

作者：前端之家时间：2020-08-12

10分钟掌握XML、JSON及其解析(下)

接上文 2.4 如何解析JSON？ Android JSON所有相关类，都在org.json包下。包括JSONObject、...

作者：前端之家时间：2020-08-12

10分钟掌握XML、JSON及其解析

原文出处： Long Luo 的博客（@Long_Luo）引言 NOKIA 有句著名的广告语：“科技以人...

作者：前端之家时间：2020-08-12

最新文章