> 110 Test St
> 110 Test St.
> 110 Test Street
虽然简单,但您可以想象更复杂的场景中的情况.我正在尝试开发一种能够将上述地址作为关键字匹配的简单算法.
例如.关键可能是“11TEST” – 110的前两个,测试的前两个和街道变体的前两个.完整匹配键也将包括前5个邮政编码,因此在上面的示例中,完整键可能看起来像“11TEST44680”.
我正在寻找有效算法或资源的想法,我可以在开发时考虑这些因素.任何想法都可以是伪代码或您选择的语言.
我们只关心美国的地址.事实上,我们只查看来自俄亥俄州和密歇根州的250个邮政编码的地址.我们也无法访问任何邮政软件,尽管对于具有成本效益的解决方案的想法是开放的(它基本上是一次性使用).请注意,这是来自政府来源的初始数据转储,因此有关用户如何清理它的建议对我构建应用程序很有帮助,但我希望能够将地址匹配为最佳状态.尽可能好.
解决方法
拼写错误本身并不是一件小事 – 尤其是当你到达使用法国名字的国家时 – 匹配Saint,Sainte,St,Ste,Saints,Saintes,Sts,Stes,Grand,Grande,Grands,Grandes,有或没有句号或连字符名称的较大部分不会导致性能问题的终结 – 特别是当St可能意味着圣人或街道,并且可能或可能没有进入正确的背景(即女性与男性).如果地址输入正确但省份或邮政编码不正确怎么办?
一个开始搜索的地方是Levenstein Distance Algorithm,我发现它对消除大部分拼写错误非常有用.之后,主要是搜索关键字并与邮政数据库进行比较.
我真的很想与目前正在开发工具的任何人合作,也许我们可以互相协助,找到一个共同的解决方案.我已经成为那里的一部分并且已经克服了我到目前为止提到的所有问题,让其他人研究同样的问题对于反弹意见真的很有帮助.
干杯 – [ben at afsinc dot ca]