在SAS中使用PROC SQL查找与给定字符串最多一个字母的字符串

前端之家收集整理的这篇文章主要介绍了在SAS中使用PROC SQL查找与给定字符串最多一个字母的字符串前端之家小编觉得挺不错的,现在分享给大家,也给大家做个参考。
首先是一些上下文.我在SAS中使用proc sql,并且需要获取具有等同于(就是说)“Massachusetts”的变量“Name”的数据集(有几百万条)中的所有条目.当然,由于数据曾经是人类手动输入的,所以接近所有想到的拼写错误(“Amssachusetts”,“Kassachusetts”等).

我发现几个条目有两个以上的字符错误,所以代码

Name like "__ssachusetts" OR Name like "_a_sachusetts" OR ... OR Name like "Massachuset__"

将选择我正在寻找的条目.但是,我希望写一个更方便的方法

Name that differs by at most 2 characters from "Massachusetts";

在那儿?还是还有其他一些提取这些条目的策略?我尝试搜索stackoverflow和web,但是不成功.我也是sql和SAS的初学者.

一些额外的信息:数据库不是英文(实际的字符串不是“马萨诸塞州”),所以使用SOUNDEX是不是真的可行(如果有的话).

提前致谢.

(编辑:改进标题)

解决方法

SAS内置函数 COMPGEDCOMPLEV来计算字符串之间的距离.下面是一个示例,显示如何仅选择Levenshtein编辑距离小于或等于2的那些.
data typo;
input name $20.;
datalines;
massachusetts
masachusets
mssachusetts
nassachusets
nassachussets
massachusett
;

proc sql;
  select name from typo
  where complev(name,"massachusetts") <= 2;
quit;

猜你在找的MsSQL相关文章