是否有一个简单的技巧来隔离大量文本中的第一个句子? (也许使用正则表达式.)
正在搜索第一个完整的“.”不起作用,像“美国”这样的缩写词.将搞砸了.
(可能没有正确答案.)
解决方法
不,没有简单的伎俩.要正确执行此操作,您需要对文本进行语法分析.没人能做到这一点.至少还没有.至少不是100%的时间.主要是因为它还需要对文本进行语义分析.你会看到,与在学校教你语法的语言学家所认为的相反,构成一个句子的内容很难用计算机可以遵循的一套规则来概括而不理解文本.
花几年时间寻找计算语言学.也许到那时会有一条捷径?
但你可以接近.
我可能会尝试寻找第一个时期,问号或感叹号,然后是空格.
/^(.*?)[.?!]\s/
((.*?)是一个非贪婪的正则表达式,以确保你真的只找到第一句话.