我已经到了绝望的地步,所以我正在寻求帮助.我正在尝试使用正则表达式查询Solr 4引擎的结果.
让我们假设我要查询的文档是:
<str name="text">description: best company; name: roca mola</str>
我想使用这个正则表达式进行查询:
description:(.*)?company(.*)?;
我在forums中读到在Solr 4中使用正则表达式就像添加斜杠一样简单,例如:
localhost:8080/solr/q=text:/description\:(.*)?company(.*)?;/
但它不起作用.这个也不起作用:
localhost:8080/solr/q=text:/description(.*)?company(.*)?;/
我不想要一个简单的查询:
localhost:8080/solr/q=text:*company*
因为这会使文档不匹配,例如:
<str name="text">description: my home; name: mother company"</str>
如果我不清楚请告诉我.
来自智利的干杯:D
注意:我在我的方案中使用text_general字段.正如@arun所指出的,字符串字段可以处理我正在使用的正则表达式的类型.
解决方法
不要在文本字段类型上尝试正则表达式搜索,而是在字符串字段类型上尝试,因为正则表达式跨越多个单词. (如果你的正则表达式需要匹配一个单词,那么你可以使用一个文本字段.)
还要做percent encoding个特殊字符,以确保它们不是不匹配的原因.
q=strfield:/description%3A(.*?)company(.*?)%3B.*/
更新:
刚试过一个字符串字段.以上正则表达式有效.即使没有百分比编码也可以工作,即
q=strfield:/description:.*?company.*?;.*/