Lex的简单入门和正则表达式基础

编译原理上机课任务如下：

=================================================这是分割线=========================================================

flex 是- fast lexical analyzer generator 的简称，一个词法分析器生成工具。
下述文件已经保存到我的百度云

（一）目录介绍

在本实验目录中，包括两个子目录。

1、子目录 flex

它包含了 flex.exe,flex.hlp,libfl.lib 三个文件，另外还有一个例子文件 example.l 及该例子生成的 lex.yy.c。

2、子目录 lex_yy

这个目录是为 lex.yy.c 建立的一个项目（使用 VC6）。它包含有 lex.yy.c,libfl.lib （拷贝自目录 flex），以及相关的项目文件。在debug 子目录中是已经生成的词法分析器 lex.yy.exe,利用它可以进行词法分析。

（二）实验示范

1、编写 lex 程序，如 example.l 文件所示
2、调用 flex 以生成 lex.yy.c， DOS命令格式： flex < example.l
3、新建一个目录（如 lex_yy）,把lex.yy.c 及 libfl.lib 拷贝到该目录下。
4、用VC6打开lex.yy.c，并生成一个新项目。
5、编译并链接libfl.lib，得到词法分析器 debug/ley.yy.exe。
6、验证词法分析器的功能：
1）编写一输入文件（如lex_yy/debug/12.txt）
2) 调用 lex.yy.exe（DOS 命令格式 lex.yy.exe < 12.txt ）
3) 观察输出结果是否与预想的相符。

（三）实验要求

1、编写一个词法分析器，它针对输入文件，实现以下功能：
1）每遇到你的学号，就输出你的名字，对于其他的串原样输出。
2）统计输入文件中单词的数目、字符的数目。

例如：（以肖永跃的上机题为例）：

输入文件如下所示：

200213001 hello world
wo ai tian an men
hello world i love
200213001

输出应该如下所示：

肖永钦 hello world
wo ai tian an men
hello world i love
肖永钦
# of ids = 11,# of chars = 66

=================================================这是分割线=========================================================

下面讲一下实验中学习到的小技巧：

CMD窗口是可以直接拖文件进去的，还有cd等命令都可以使用

XP下不能shift+右键，就出现在此打开命令行窗口，所以想找到目录可以试试cd命令，用法和linux下是一样的。

当然，这样还是有点麻烦，如果你需要打 flex < example.l 这样的命令的话。因为你要先进到目录下再打一行命令。

我们可以这样操作来完成flex < example.l 命令的输入：

1、点住文件“flex.exe”拖进cmd窗口里松手

2、打一个“<”

3、点住文件“example.l”拖进cmd窗口里松手

这时显示如下：

看~~一样的吧，而且还是绝对路径，前面都不用cd命令进子目录了

=================================================这是分割线=========================================================

接下来讲一下实验中用到的代码：

首先介绍一下flex：点击打开链接（这篇文章稍后将转载到我的博客）

那么来分析一下这次上机实验的代码：

//定义部分
	int num_words = 0,num_chars = 0;
space	[\t\n]
blank	{space}+
letter	[(A-Z)(a-z)]
digit	[0-9]
word	({letter}|{digit})+

//规则部分
%%
//模式必须顶头写 模式的格式为正则式或者{}括起来的已经定义好的宏
//空白后接C语言语句，表示识别后的相应动作
201392326	{printf("我");num_chars+=9;}	
{blank}	{printf("%s",yytext);}
{word}	{num_words++;num_chars+=yyleng;printf(" #%d# ",num_words);}

//用户附加C语言部分
%%
int main()
{
	yylex();
	printf("\n#number of words = %d,#number of chars = %d\n ",num_words,num_chars);

	return 0;
}

下面着重介绍一下实验中带来困惑的地方：

※正则表达式里括号的使用方法和区别！

（）：小括号起到分组功能，也就是和数学里意义相同，用于把一部分括在一起。

【】：中括号表示括号中的某一个，例如代码中的【0-9】表示0~9中的任一数字，【ABC】表示A或B或C

{}：花括号表示重复若干次，例如“A{3}”即“AAA”，“AAB{2}”即“AABB”，表示最近处的单元重复若干次，在FLEX分析时也表示引用宏（貌似不加也可以，但保险起见建议添加）。

回头看一个复杂的例子： AC【DF】（AB）{2}

等价于：AC D|F ABAB

关于括号实验时有不少问题，好心的学长十分有耐心，还推荐了一个好东西

正则表达式30分钟入门教程：点击打开链接

这是一部非常好非常好的正则表达式教程，值得深入学习！

其中电话号码的例子可以帮助理解括号君~

Lex的简单入门和正则表达式基础

猜你在找的正则表达式相关文章