nlp – 如何从Gutenberg项目中删除页眉/页脚?

前端之家收集整理的这篇文章主要介绍了nlp – 如何从Gutenberg项目中删除页眉/页脚?前端之家小编觉得挺不错的,现在分享给大家,也给大家做个参考。
我尝试过各种方法从Gutenberg项目中删除许可证,用作语言学习项目的语料库,但我似乎无法提出无人值守的可靠方法.到目前为止,我提出的最好的启发式是剥离前二十八行,最后一个398,它为大量的文本工作.任何建议,我可以自动剥离文本(这是非常相似的许多文本,但每个案例略有不同,以及一些不同的模板),以及如何验证的建议文字已被精确地剥离,将非常有用.

解决方法

你不是在开玩笑几乎就好像他们试图让AI完成这个工作.我只能想到两种方法,两者都不完美.

1)在Perl中设置一个脚本来处理最常见的模式(例如,查找“生成的”这个短语,继续下一个空白行,然后剪切),但是对于什么是预期(例如,下一个文本应该是标题或作者).当模式失败时,你会知道的.第一次模式失败,手动执行.第二次修改脚本.

2)尝试Amazon’s Mechanical Turk.

猜你在找的HTML相关文章