$1 简介
本文档描述了sqlite库的体系结构,这些信息对那些想理解和修改sqlite的内部工作机制的人是有用的。
下图显示了sqlite的主要组成部件及其相互关系,下面的内容将描述每一个部件。(具体的图参见http://www.sqlite.org/arch2.gif)
本文档描述sqlite 3.0版本,2.8版或更早期的版本与此相似,只是细节上有所不同。
$2 接口
虽然有些函数分布在其它的文件中,但是主要的sqlite库的公用接口函数是在main.c,legacy.c和vdbeapi.c源代码文件中实现的。sqlite3_get_table()函数在table.c中实现,sqlite3_mprintf()在printf.c中实现,sqlite3_complete()是在tokenize.c中实现的。Tcl接口在tclsqlite.c中实现的。关于sqlite的C接口更完整的信息在http://www.sqlite.org/capi3ref.html中描述了。
为避免和其它软件的命名冲突,sqlite库中所有的外部符号都以sqlite3为前缀。这些符号目的就是为外部使用,换句话说,所有以sqlite3_开始的符号,形成了sqlite的API。
$3 词法分析器
当一个sql语句执行时,接口首先把包含该sql语句的字符串传给词法分析器来进行处理。词法分析器负责把字符串分成一个一个的词法单元,然后把词法单元传递给语法分析器,词法分析器是在tokenize.c文件中实现,这个代码是手编的,而不是使用lex之类的工具生成的。
需要注意的是,在本设计中,词法分析器调用语法分析器,熟悉YACC和BISON的人一般总是在语法分析器中调用词法分析器,sqlite的作者这两种方法都试过,发现在词法分析器中调用语法分析器更好。
$4 语法分析器
语法分析器根据上下文对词法分析出来的单元理解其涵义。sqlite的语法分析器是使用Lemon(http://www.hwaci.com/sw/lemon/)的LALR(1)工具产生器生成的。Lemon和YACC/BISON工具差不多,但是Lemon使用一种不同的输入语法,这种语法更难以出错。Lemon能产生一个可重入和线程安全的语法分析器,Lemon定义了一种非终结符析构器,以致在语法出现错误时不至于出现内存泄漏。Lemon分析器的输入文件在parse.y中定义。
由于Lemon不是一个常见的程序,其完整的源代码仅一个C文件在sqlite的tool子目录中。Lemon的文档在doc子目录中。
$5 代码生成器
在语法分析器分析完sql语句后,它调用代码生成器来生成在虚拟机上执行的代码,这些代码的执行是按照sql语句的要求来执行的。代码生成器包含在许多文件中:attach.c,auth.c,build.c,delete.c,expr.c,insert.c,pragma.c,select.c,trigger.c,update.c,vacuum.c 和where.c。这些文件就是我们的魔法发生的地方。expr.c处理表达式的代码生成,where.c处理SELECT,UPDATE和DELETE语句中的WHERE子句的代码生成,attach.c,trigger.cupdate.c和vacuum.c处理与其名字相同的sql语句的代码生成,这其中的每个文件在必要时都调用expr.c和where.c中的函数。其它的sql语句在build.c中实现,auth.c文件实现sqlite3_set_authorizer()函数的功能。
$6 虚拟机
代码生成器产生的程序在虚拟机上运行,该虚拟机的信息在文档http://www.sqlite.org/opcode.html中描述。概括来讲,虚拟机实现了一个抽象的计算引擎,这个计算引擎用来操作数据库文件。虚拟机有一个栈用于保存计算的中间状态,每条指令包括一个操作码和最多三个操作数。虚拟机在vdbe.c中实现。虚拟机有它自己的头文件:vdbe.h文件定义了虚拟机和sqlite库的接口,vdbeInt.h文件定义了虚拟机的结构。vdbeaux.c文件中包含一些虚拟机和接口模块使用的工具。vdbeapi.c文件包含了虚拟机的外部接口,例如sqlite3_bind_...之类的函数。字符串,整数,浮点数,BLOB类型都被存在一个名为Mem的内部对象中,这个内部对象在vdbemem.c文件中实现。 sqlite使用回调C语言函数的方法来实现sql语句的功能。甚至内建的sql功能也是通过这种方法来实现。大部分sql内建的函数,例如coalesce(),count(),substr()等等,在func.c中实现。日期和时间转换函数在date.c中实现。 $7 B树 sqlite使用B树来实现数据库,B树在btree.c文件中实现。数据库中的每个表和索引都使用一个单独的B树。所有的B树都存放在一个磁盘文件中。该数据库文件格式的细节在btree.c文件开始部分的注释里详细描述。 B树子系统的接口在头文件btree.h中定义。 $8 页缓存 B树模块使用固定的块大小从磁盘中请求信息。缺省的块大小为1024B,但是可以从512到65536B调整。页缓存负责读,写和缓存这些块。页缓存也提供了回滚和原子提交的功能抽象和数据库文件的锁操作。B树驱动程序从页缓存中取得页,并且通知页缓存程序何时修改,提交或回滚操作,页缓存处理所有的这些麻烦细节,确保请求被快速,安全和高效地处理。 实现页缓存机制的代码在单个C文件pager.c中。页缓存子系统的的接口在pager.h中定义。 $9 操作系统接口 为了提高在POSIX和Win32系统中的可移植性,sqlite和操作系统的接口使用了一个抽象层。此抽象层的接口在os.h中定义。每个操作系统尤其自己的实现:os_unix.c是Unix的,os_win.c是windows系统的,等等。每个操作系统相关的实现尤其自己的头文件:os_unix.h,os_win.h等等。 $10 工具程序 内存分配和大小写不敏感的字符串比较函数在util.c文件中实现,语法分析器使用的符号表是hash表,此表在hash.c中实现。utf.c文件包含Unicode转换函数。sqlite有它自己的printf()函数实现,这在printf.c中定义,和随机数函数实现,这在random.c中实现。 $11 测试代码 代码中有一半以上的是为测试服务的。在主要的代码文件中有许多assert()函数。test1.c到test5.c和md5.c都是用于测试的。os_test.c模拟验证电源失效后的页缓存机制的灾难恢复能力。