背景
平时不很常用正则表达式,临时需要也是先查网络上的资料,阅读理解,然后再用。但是,很多情况下,正则表达式很有用。
比如,以前帮一研究人员进行超级复杂的一个不小的方程组求解,原始公式里面涉及变量、常量、符号众多,而且计算规则复杂,获取计算用的方程组的数学公式之后,如何变成符合特定的编程语言规范的表达式、提高效率、降低手动输入出错的可能性,这就是一个有用的话题了。
查找替换只是转换过程中的一个很小的步骤。涉及到的工具其实是非常多样的。这里只是举一个其他地方看到的网络上公开的例子,介绍在Notepad++里面使用正则表达式时候的一个例子。(主要还是方便日后自己查询之用)
例子
最初的例子,是这样的一些式子:
9.52*10^6*x13-5.48*10^12*x1-2.14*10^11*x1*x13+2.79*10^(-4)*x2*x9-2.44*10^7*x1*x12+1.96*10^5*x3*x13-1.81*10^5*x1*x12+6.35*10^6*x4*x3=0;
2.14*10^11*x1*x13-2.79*10^(-4)*x2*x9+6.23*10^7*x4*x13-17.6*x2*x10-2.07*10^(-3)*x2*x12+3.32*10^11*x5*x13-1.13*10^(-3)*x2+1.19*10^7*x13=0;
2.44*10^7*x1*x12-1.96*10^5*x3*x13-6.11*10^3*x3*x13+2.94*10^3*x5*x9=0;
1.81*10^5*x1*x12-6.35*10^6*x4*x13-6.23*10^7*x4*x13+17.6*x2*x10=0;
6.11*10^3*x3*x13-2.94*10^3*x5*x9+2.07*10^(-3)*x2*x12-3.32*10^11*x5*x13-3.76*10^10*x5*x13+1.16*10^(-2)*x6*x9=0;
3.76*10^10*x5*x13-1.16*10^(-2)*x6*x9-1.10*10^7*x6*x12+3.09*10^10*x7*x13=0;
1.10*10^7*x6*x12-3.09*10^10*x7*x13-1.72*10^7*x7*x12+4.48*10^5*x8*x13=0;
1.72*10^7*x7*x12-4.48*10^5*x8*x13-1.35*10^6*x8*x12=0;
2.14*10^11*x1*x13-2.79*10^(-4)*x2*x9+6.11*10^3*x3*x13-2.94*10^3*x5*x9+3.76*10^10*x5*x13-1.16*10^(-2)*x6*x9-1.45*x9*x12+8.54*10^5*x10*x13=0;
6.23*10^7*x4*x13-17.6*x2*x10+1.45*x9*x12-8.54*10^5*x10*x13-25.2*x10*x12+1.01*10^8*x11*x13=0;
25.2*x10*x12-1.01*10^8*x11*x13-1.7*10^10*x11+1.49*10^7*x13=0;
2*4.47*10^7*(x13)^2-3.03*10^4*(x12)^2-2.44*10^7*x1*x12+1.96*10^5*x3*x13-1.81*10^5*x1*x12+6.35*10^6*x4*x13-2.07*10^(-3)*x2*x12+3.32*10^11*x5*x13-1.45*x9*x12+8.54*10^5*x10*x13-25.2*x10*x12-1.01*10^8*x11*x13-1.10*10^7*x6*x12+3.09*10^10*x7*x13-1.72*10^7*x7*x12+4.48*10^5*x8*x13-1.35*10^6*x8*x12=0;
x1+x2+x3+x4+x5+x6+x7+x8+x9+x10+x11+x12+x13=1;
如果要变成Mathematica 中比如NSolve认识的形式,并且把所有小数写成简单的有理分数的形式,Notepad++中如何转化?
为什么用Notepad++不用Word? 虽然都有强大的查询替换功能,都支持正则表达式、UTF-8,但是如果考虑到 轻量级、查找替换之类的多步骤操作也都可录制宏简化简单重复刻板的操作(shortcuts.xml 中可以录制和修改、保存多个宏或批处理操作 )、不容易产生程序语言中不兼容但是视觉不易区分的格式性错误,这些估计word就差太远了(VBA应该也可以录制宏、但是似乎重量级些)。
观察规律,小数主要是这样的形式: 整数部分1~2位,小数部分也是1~2位。所以,全部包括的统一格式情况下,查找栏里面写的用于匹配的正则表达式是:
\d{1,2}\.\d{1,2}
语法规则可以参考这些博客、相关链接、以及这些等等。或者自行搜索。
考虑到最简单的变有理形式的方法是,如果有一位小数,则去掉小数点之后除以10,两位小数去掉小数点之后除以100,……依次类推。那么这种替换规则,似乎简化的操作方法就是分开来:
只有一位小数的查找匹配项:
\d{1,2}\.\d{1}
和,有且只有两位小数的查找匹配项
\d{1,2}\.\d{2}
因为要把小数点去掉,组合整数和分数部分之后再除以特定的数,所以,原始匹配项至少要分成三组(正则表达式匹配字符串时的分组)然后在替代中反向引用相应的分组并组合:
比如,只有一位小数的查找匹配项:
(\d{1,2})\.(\d{1})
替换项目正则表达式中需要反向引用上面的三段式的形式,即 $1
是整数部分, $2
为小数点,$3
是小数部分(不光可以使用 $1
、$2
、$3
,还可以\1
、\2
、\3
,比如Editpad Pro里面的例子),所以替换用的正则表达式:
$1$3/10
类似地有且只有两位小数的查找匹配项为
\d{1,2}\.\d{2}
其修正分组的形式为:
(\d{1,2})\.(\d{2})
替换栏中需要匹配的表达式为:
$1$3/100
把多余的空格、回车换行去掉,;
替换成半角的,
之后,想要的适合mathematica使用的最后的形式:
952/100*10^6*x13-548/100*10^12*x1-214/100*10^11*x1*x13+279/100*10^(-4)*x2*x9-244/100*10^7*x1*x12+196/100*10^5*x3*x13-181/100*10^5*x1*x12+635/100*10^6*x4*x3==0,214/100*10^11*x1*x13-279/100*10^(-4)*x2*x9+623/100*10^7*x4*x13-176/10*x2*x10-207/100*10^(-3)*x2*x12+332/100*10^11*x5*x13-113/100*10^(-3)*x2+119/100*10^7*x13==0,244/100*10^7*x1*x12-196/100*10^5*x3*x13-611/100*10^3*x3*x13+294/100*10^3*x5*x9==0,181/100*10^5*x1*x12-635/100*10^6*x4*x13-623/100*10^7*x4*x13+176/10*x2*x10==0,611/100*10^3*x3*x13-294/100*10^3*x5*x9+207/100*10^(-3)*x2*x12-332/100*10^11*x5*x13-376/100*10^10*x5*x13+116/100*10^(-2)*x6*x9==0,376/100*10^10*x5*x13-116/100*10^(-2)*x6*x9-110/100*10^7*x6*x12+309/100*10^10*x7*x13==0,110/100*10^7*x6*x12-309/100*10^10*x7*x13-172/100*10^7*x7*x12+448/100*10^5*x8*x13==0,172/100*10^7*x7*x12-448/100*10^5*x8*x13-135/100*10^6*x8*x12==0,214/100*10^11*x1*x13-279/100*10^(-4)*x2*x9+611/100*10^3*x3*x13-294/100*10^3*x5*x9+376/100*10^10*x5*x13-116/100*10^(-2)*x6*x9-145/100*x9*x12+854/100*10^5*x10*x13==0,623/100*10^7*x4*x13-176/10*x2*x10+145/100*x9*x12-854/100*10^5*x10*x13-252/10*x10*x12+101/100*10^8*x11*x13==0,252/10*x10*x12-101/100*10^8*x11*x13-17/10*10^10*x11+149/100*10^7*x13==0,2*447/100*10^7*(x13)^2-303/100*10^4*(x12)^2-244/100*10^7*x1*x12+196/100*10^5*x3*x13-181/100*10^5*x1*x12+635/100*10^6*x4*x13-207/100*10^(-3)*x2*x12+332/100*10^11*x5*x13-145/100*x9*x12+854/100*10^5*x10*x13-252/10*x10*x12-101/100*10^8*x11*x13-110/100*10^7*x6*x12+309/100*10^10*x7*x13-172/100*10^7*x7*x12+448/100*10^5*x8*x13-135/100*10^6*x8*x12==0,x1+x2+x3+x4+x5+x6+x7+x8+x9+x10+x11+x12+x13==1,
不同的工具使用正则表达式时候可能稍有差异,相机而变。
例子的结果综述
求这个
Cases[allsol,_?(FreeQ[N[#,16],Complex])&]
筛选,剩下 19组实数解(通常实用类的问题还是最感兴趣实数解);如果让每个分量绝对值都小于 1, 只剩下 4 组;如果有更苛刻的约束条件,没有实数解满足约束,求最小二乘或其它意义下的近似解。
上面只是一个转换的例子,涉及的只是正则表达式、Notepad++应用中的皮毛,只涉及了单一语言的转换,其它语言转换中类似。随机应变。
关于Notepad++中的宏的录制,这里有个Cathrine美女
录制的教程动画,高效使用Notepad++系列 之五