一.论文摘要
论文提出Sequitur算法,该算法可以从字符序列中推导出潜在的语法。算法优势在于:
1.时间空间复杂度为O(n)
2.可以动态的生成语法
二.之前论文的不足
1.文本的压缩技术旨在建立可靠的模型去预测即将读入的新字符以便可以对字符进行编码,但所建立的模型相当晦涩难懂,所以很难直观的展现文本中的结构。
2.一些基于语法推理的技术则有一个共同的缺点,就是他们只能处理已经句式化的文本,而不能处理流数据。
三.Sequitur算法
1.两条基本规则
1)唯一性:语法中不会出现2次相同连续字符 ----当这条规则被打破时,生成新的语法
2)每条生成的语法至少被使用2次 ----当这条规则被打破时,删除没有用的语法
四.算法的实际运用
对于输入语句 In the beginning,god created the heaven and the earth,算法区分出了 begin 和 ning,而这个真是英语语法的一种。
五.Sequitur算法数据结构
A <--> [ ] <-->B <-->c <--> d-|
^------ |----------------
|
-----------------
|
V
B <--> [ ] <--> <-->
这里有A和B两个语法,用的是双向链表,[ ]是safe guard,永远不会变;A里面的B有指向单独的B的头的指针。
此外每个语法(每个双向链表)都有一个count变量,记录该语法使用次数,出现一次增1,消失一次减1,当记录值为1时,删除语法。
用hash来存储digram(2个连续的字符)