首先是一些上下文.我在SAS中使用proc sql,并且需要获取具有等同于(就是说)“Massachusetts”的变量“Name”的数据集(有几百万条)中的所有条目.当然,由于数据曾经是人类手动输入的,所以接近所有想到的拼写错误(“Amssachusetts”,“Kassachusetts”等).
Name like "__ssachusetts" OR Name like "_a_sachusetts" OR ... OR Name like "Massachuset__"
将选择我正在寻找的条目.但是,我希望写一个更方便的方法
Name that differs by at most 2 characters from "Massachusetts";
在那儿?还是还有其他一些提取这些条目的策略?我尝试搜索stackoverflow和web,但是不成功.我也是sql和SAS的初学者.
一些额外的信息:数据库不是英文(实际的字符串不是“马萨诸塞州”),所以使用SOUNDEX是不是真的可行(如果有的话).
提前致谢.
(编辑:改进标题)