我有一个有趣的问题来自同事,我们目前有一个操作上的痛点,而且好奇的是,有什么东西(实用程序/库/算法)可能有助于自动化.
假设你有一个文字值列表(在我们的例子中,它们是URL).我们想要做的是,根据这个列表,提出一个与所有这些文字项匹配的单个正则表达式.
所以,如果我的列表是:
http://www.abc.com http://www.abc.com/subdir http://foo.abc.com
最简单的答案是
^(http://www.abc.com|http://www.abc.com/subdir|http://foo.abc.com)$
但是对于大量的数据来说,这是很大的,我们有一个长度限制我们试图留在下面.
目前我们手工编写正则表达式,但是这并不能很好地扩展,也不适合任何人使用.是否有更自动化的方法来分解源数据,以获得与所有源值匹配的长度最优的正则表达式?