HTML内容提取中的最新技术是什么?

前端之家收集整理的这篇文章主要介绍了HTML内容提取中的最新技术是什么?前端之家小编觉得挺不错的,现在分享给大家,也给大家做个参考。
有很多关于HTML内容提取的学术工作,例如Gupta&凯撒(2005) Extracting Content from Accessible Web Pages,以及一些有兴趣的迹象,例如 onetwothree,但我并不清楚后者的做法反映了前者的想法。最好的做法是什么?

指向好(特别是开放源代码)的实现和良好的学术实践调查将是我正在寻找的一种。

后记第一:准确地说,我之后的这种调查将是一篇论文(已发表,未发表,无论如何),讨论了学术文献的两个标准,以及一些现有的实现,并分析了实现不成功从标准的角度。而且,邮件列表中的邮件确实也适用于我。

后记第二个要清楚的是,在我接受的Peter Rowell的答案之后,我们可以看到这个问题导致了两个问题:(i)解决不符合HTML的问题,美丽的汤是最推荐的解决方案,(ii)未解决的问题或分离货物(主要是现场添加的样板和促销材料)(内容,认为页面可能有趣的人实际上是相关的)为了解决现状新的答案需要明确地解决肉体上的鲜血。

解决方法

提取可能意味着不同的东西给不同的人。能够处理所有这些被破坏的HTML是有一件事,而美丽的汤是这个部门的明显赢家。但是BS不会告诉你什么是肉馅,什么是肉。

当从计算语言学家的角度考虑内容提取时,事物看起来不同(和丑陋)。当分析页面时,我只对页面的具体内容感兴趣,减去所有的导航/广告/等等。残余。你不能开始做有趣的事情 – 共同分析,短语发现,加权属性向量生成等等 – 直到你摆脱了这个怪物。

OP所引用的第一篇论文表明这是他们试图实现的 – 分析一个网站,确定整体结构,然后减去这个和Voila!你只有肉 – 但他们发现它比他们想象的更难。他们正在从改进的可及性角度来解决这个问题,而我是一个早期搜索的人,但我们都得出了同样的结论:

将肉与肉分开是困难的。并且(在你的问题的线之间阅读)即使一旦删除了这个邮件,没有仔细应用的语义标记就很难确定文章的“作者意图”。将肉从柑橘类的网站(干净和可预测地布置具有非常高的信噪比)变得比处理随机网页内容容易2或3个数量级。

BTW,如果您处理更长的文档,您可能对Marti Hearst(现为加州大学伯克利分校的教授)完成的工作特别感兴趣。她的PhD thesis和其他关于在大型文件中进行子主题发现的论文给了我很多的洞察力,在较小的文档中做类似的事情(令人惊讶的是,可能更难处理)。但是,你可以在你摆脱这个怪物之后做到这一点。

对于那些可能感兴趣的人来说,这里有一些背后的故事(可能是Off Topic,但是今晚我还是那种心情):

八十年代和九十年代,我们的客户大多是政府机构,他们的眼睛大于他们的预算,而梦想让迪斯尼乐园看起来很棒。他们正在收集他们可以得到他们的手的所有东西,然后去寻找一种能够以某种方式(巨手手)提取文件“意义”的银弹技术。对。他们找到了我们,因为我们是这个奇怪的小公司在1986年进行“内容相似性搜索”。我们给了他们几个演示(真实的,不是假的),这使他们吓倒了。

我们已经知道的事情之一(他们相信我们需要很长时间),每个集合是不同的,需要它自己的特殊扫描仪来处理这些差异。例如,如果你所做的一切都是直接报纸的故事,生活很简单。标题主要告诉你一些有趣的事情,这个故事是用金字塔式写的 – 第一段或者第二段的内容是有谁/什么/在哪里/什么时候,然后是下面的段落。就像我说的,这是容易的东西。

杂志文章怎么样?哦,天啊,别让我开始了!标题几乎总是无意义的,结构从一个mag到另一个,甚至从mag的一个部分到下一个。拿起有线的副本和大西洋月刊的副本。看一篇大文章,并尝试找出一篇有关文章的有意义的1段总结。现在尝试描述一个程序如何完成同样的事情。同一套规则是否适用于所有文章?甚至来自同一杂志的文章?不,他们没有。

对不起,听起来像是一个curmudgeon,但这个问题是真的很难。

奇怪的是,谷歌成功的一个很大的原因(从搜索引擎的角度来看),他们对来自另一个网站的链接中的单词和周围的重点放在了重要的位置。该链接文本表示由人类链接到的网站/页面完成的一种小型摘要,正是您在搜索时所需要的。它可以在几乎所有的类型/布局样式的信息。这是一个积极的辉煌的洞察力,我希望自己已经拥有了。但是,由于没有从昨晚的莫斯科电视列表到一些他们所捕获的随机电报信息,或者是一些非常糟糕的OCR版本的埃及报纸,没有任何好消息。

/迷你咆哮和行程向下内存车道

猜你在找的HTML相关文章