前言
中文汉字和拼音互转是很多地方都会遇到的,本文是精心整理并修改了网上几种常见的字典文件并简单封装了一下可以直接拿来用的工具库。有需要的下面来一起看看。
汉字转拼音:
拼音转汉字:
汉字与拼音相关知识普及
汉字范围
一般认为Unicode编码中的汉字范围是 /^[\u2E80-\u9FFF]+$/ (11904-40959)
,但是其中有很多不是汉字,或者说是可以读的汉字,本文用到的几个字典文件的汉字范围均是 /^[\u4E00-\u9FA5]+$/
,也就是(19968-40869),另外还有一个单独的汉字〇,其Unicode位置是12295。
拼音组合
汉字有21个声母:b,p,m,f,d,t,n,l,g,k,h,j,q,x,zh,ch,sh,r,z,c,s,24个韵母,其中单韵母有6个:a,o,e,i,u,v,复韵母有18个:ai,ei,ui,ao,ou,iu,ie,ve,er,an,en,in,un,vn,ang,eng,ing,ong,假设声母和韵母两两组合的话,会有24X21=504种组合,实际情况是有些组合是没有意义的,比如bv,gie,ve等,去除这部分后,还剩余412种。
拼音字典文件
按照字典文件的大小从小到大依次介绍。
字典一:拼音首字母
该数据字典将Unicode字符中 4E00 (19968)- 9FA5 (40869)共计20902个汉字的拼音首字母拼接在一起得到一个很长的字符串,然后再将有多音字的汉字(共计370个多音字)单独列出来。该字典文件大小为 25kb 。
该字典文件优点是体积小,支持多音字,缺点是只能获取拼音首字母。
字典二:常用汉字
该字典文件将汉字按照拼音进行归类,共计401种组合,收录了6763个常用汉字,不支持多音字。由于从网络上收集的,收录字数较少,所以文件体积只有24kb,后续有空看能不能给扩充一下。
后来慢慢发现这个字典文件中存在诸多错误,比如把 虐 的拼音写成了 nue (正确写法应该是nve),躺 写成了 thang ,而且不支持多音字,所以后来我根据其它字典文件自己重新生成了一份这样格式的 字典文件 :
共有404种拼音组合
收录了6763个常用汉字
支持多音字
不支持声调
文件大小为27kb
同时,我根据网上一份 常用6763个汉字使用频率表 ,将这6763个汉字按照使用频率进行了排序,这样就可以实现一个差强人意的JS版输入法了。
另外,根据另外一份更完整的字典文件发现其实共有412种拼音组合,上面字典文件中没有出现的8种发音是:
字典三:终极字典
首先,从网上找的如下结构字典文件(下面称为字典A),具体是哪不记得了,支持声调和多音字,它将Unicode字符中 4E00 (19968)- 9FA5 (40869)共计20902个汉字(如果算上〇的话那就是20903个)拼音全部列举,该字典文件大小为 280kb :
其中,对于没有或者找不到读音的汉字,统一标注为 none0 ,我统计了一下,这样的汉字一共有525个。
本着将字典文件尽可能减小体积的目标,发现上述文件中除了第一个〇(3007)之外,其它都是连续的,所以我把它改成了如下结构,文件体积也从 280kb 减小到了 117kb :
该字典文件的缺点是声调是用数字标出的,如果想要得出类似 xiǎo míng tóng xué
这样的拼音的话,需要一个算法将合适位置的字母转换成 āáǎàōóǒòēéěèīíǐìūúǔùüǖǘǚǜńň
。
本来还准备自己尝试写一个转换的方法的,后来又找到了如下 字典文件 (下面称为字典B),它收录了20867个汉字,也支持声调和多音字,但是声调是直接标在字母上方的,由于它将汉字也列举出来,所以文件体积比较大,有 327kb ,大致内容如下:
但是经过比对,发现有502个汉字是字典A中读音为 none 但是字典B中有读音的,还有21个汉字是字典A中有但是B中没有的:
还有7个汉字是B中有但是A中没有的:
所以我在字典A的基础上将二者进行了合并,得到了最终的字典文件 pinyin_dict_withtone.js ,文件大小为 122kb :
如何使用
我将这几种字典文件放在一起并简单封装了一下解析方法,使用中可以根据实际需要引入不同字典文件。
封装好的3个方法:
下面分别针对不同场合如何使用作介绍。
如果你只需要获取拼音首字母
需要特别说明的是,如果你引入的是其它2个字典文件,也同样可以获取拼音首字母的,只是说用这个字典文件更适合。
如果拼音不需要声调
如果需要声调或者需要处理生僻字
关于简单拼音输入法
一个正式的输入法需要考虑的东西太多太多,比如词库、用户个人输入习惯等,这里只是实现一个最简单的输入法,没有任何词库(虽然加上也可以,但是web环境不适合引入太大的文件)。
推荐使用第二个字典文件 pinyin_dict_noletter.js ,虽然字典三字数更多,但是不能按照汉字使用频率排序,一些生僻字反而在前面。