本文实例讲述了PHP实现scws中文分词搜索的方法。分享给大家供大家参考,具体如下:
1、4个文件(本站PHP-scws-ch-codes(jb51.cc).rar">下载地址。)解压后,放到一个地方 eg:E:/wamp/scws
2、PHP.ini 中配置
PHP;">
extension = PHP_scws.dll
scws.default.charset = utf8 //配置默认的编码方式
scws.default.fpath = "E:/wamp/scws" //加压后文件的路径
3、使用
set_charset('utf8'); //编码
// 这里没有调用 set_dict 和 set_rule 系统会自动试调用 ini 中指定路径下的词典和规则文件
$so->add_dict(ini_get('scws.default.fpath') . '/dict.utf8.xdb');
//$so->add_dict('./dd.txt',SCWS_XDICT_TXT);
$so->set_rule(ini_get('scws.default.fpath') . '/rules.utf8.ini');
$so->set_duality(0); //散字二元
$so->set_ignore(0); //忽略标点符号
$so->set_multi(0);
$wd='要搜索的内容';
$so->send_text($wd);
while($tmp = $so->get_result())
//遍历后即得到字符串分割后的内容,
//根据得到的内容分别到数据库中查找(like匹配)
{
}
亲自试验了一下如下:
PHP;">
test
$value)
{
$str2=explode(',',$value); //,切割
foreach($str2 as $k=>$v)
{
$str3=explode('.',$v); //。切割
foreach($str3 as $kk=>$vv)
{
array_push($arr,$vv);//处理完后,返回一个数组
}
}
}
}else{//对中文的分词处理
$so = scws_new();
$so->set_charset('utf8');
// 这里没有调用 set_dict 和 set_rule 系统会自动试调用 ini 中指定路径下的词典和规则文件
$so->add_dict(ini_get('scws.default.fpath') . '/dict.utf8.xdb');
$so->set_rule(ini_get('scws.default.fpath') . '/rules.utf8.ini');
$so->set_duality(0); //散字二元
$so->set_ignore(0); //忽略标点符号
$so->set_multi(0);
$so->send_text($keywords);
while ($tmp = $so->get_result())//得到一个数组,里面包含词组和标点符号
{
foreach($tmp as $key=>$value)
{
$value=$value["word"];
if(preg_match("/^[一-龥]{6,21}$/",$value))//去除标点符号
{
array_push($arr,$value);
}
}
}
}
foreach($arr as $key=>$value)//便利得到的数组,到数据库中匹配
{
if($key2!='')
{
$sql="select * from `$table` where `$key1` like '%$value%' or `$key2` like '%$value%'";
}else{
$sql="select * from `$table` where `$key1` like '%$value%'";
}
$query=MysqL_query($sql);
array_push($str,$query);
}
return $str;
}
include('conn.PHP');
$keywords="哈哈lsd djk,hdjs dd";
$table='two_key';
$key1='address';
$key2='';
$query=search($keywords,$key2);
foreach($query as $key=>$value)
{
while($row=MysqL_fetch_array($value))
{
echo $row[id].'----'.$row[name].'-----'.$row[address].'
'; } } ?>
'; } } ?>