前言
不知不觉间,使用FME已有两年多的时间,在这期间,FME带给了我无数惊喜,最新版本的FME2017的界面也让人非常喜欢。
本文将结合几个常用的转换器,探讨一下在FME中使用正则表达式的方法。
Tester
在使用FME的这个转换器的时候,我喜欢使用tester中的正则表达式,并且貌似从2016开始Matches Regex变成了Contains Regex。这意味着,如果要筛选“我是FME中国技术交流群里的青,哈哈哈!”与“我是青,我在FME中国技术交流群,哦哦哦!这样的两个字符串,并且我们将筛选规则确定为:字符串中同时含有FME和青这两个字符串,且FME在青之前;如果是之前的版本我们只能将表达式写成:.+FME.*青.+,来进行筛选;而现在可以直接这么写:FME.*青。经过这样的筛选将会直接pass掉不符合筛选条件的记录。设置及结果如下所示:
对比一下我们写的两个正则表达式:Matches Regex表示字符串必须与正则表达式完全匹配,而Contains Regex表示只要字符串中包含这种规律的字符串即可。在本例中,这种升级优势不太明显,但在一些需要复杂匹配的时候,这种升级就会让编写表达式变成一件比较简单的事情。
StringSearcher
使用StringSearcher从字符串中提取需要的信息大概是这个转换器最经典的用法,假如有这样两个个字符串:我最喜欢用的编程语言是'Python';我最喜欢的ETL工具是'FME。并且我们将提取规则确定为:只提取出单引号之间的内容。要实现这样的功能只需要写这么一个表达式:(?<=').+(?=')。这个表达式的意思是:匹配引号中间的内容,但结果中并不会包含引号,这就是零宽断言的强大之处。设置及结果如下所示: