我尝试过各种
方法从Gutenberg项目中
删除许可证,用作语言学习项目的语料库,但我似乎无法提出无人值守的可靠
方法.到目前为止,我提出的最好的启发式是剥离前二十八行,最后一个398,它为大量的文本工作.任何建议,我可以
自动剥离文本(这是非常相似的许多文本,但每个案例略有不同,以及一些不同的模板),以及如何验证的建议
文字已被精确地剥离,将非常有用.
你不是在开玩笑几乎就好像他们试图让AI完成这个工作.我只能想到两种
方法,两者都不完美.
1)在Perl中设置一个脚本来处理最常见的模式(例如,查找“生成的”这个短语,继续下一个空白行,然后剪切),但是对于什么是预期(例如,下一个文本应该是标题或作者).当模式失败时,你会知道的.第一次模式失败,手动执行.第二次修改脚本.
2)尝试Amazon’s Mechanical Turk.