正则表达式引擎的构建——基于编译原理DFA(龙书第三章)——5 DFA最小化

前端之家收集整理的这篇文章主要介绍了正则表达式引擎的构建——基于编译原理DFA(龙书第三章)——5 DFA最小化前端之家小编觉得挺不错的,现在分享给大家,也给大家做个参考。

分类C++算法编译原理 421人阅读 评论(0) 收藏 举报

目录(?)[+]

完整引擎代码在github上,地址为:https://github.com/sun2043430/RegularExpression_Engine.git


DFA最小化的算法原理

“DFA状态最小化算法的工作原理是将一个DFA的状态集合分划成多个组,每个组中的各个状态之间相互不可区分。然后,将每个组中的状态合并成状态最少DFA的一个状态。算法在执行过程中维护了状态集合的一个分划,分划中的每个组内的各个状态不能区分,但是来自不同组的任意两个状态是可区分的。当任意一个组不能再被分解为更小的组时,这个分划就不能再进一步精化,此时我们就得到了状态最少的DFA。”

——《编译原理》例3.38

起始时,该分划包含两个组:接受状态组和非接受状态组。


实例

如图(编译原理 图3-36)

首先我们将ABCDE分划到两个组中{ABCD}和{E},{E}是接受状态组,且不可被再分割。

{ABCD}是可分割的,所以我们考虑所有可能的转换。

先看转换字符a:

A->a->B

B->a->B

C->a->B

D->a->B

所以ABCD经过a到达的集合是{B},而{B}属于{ABCD}这一个集合,所以我们说{ABCD}在输入字符为a时是不可分划的。

在来看转换字符b:

A->b->C

B->b->D

C->b->C

D->b->E

到达的集合是{CDE},其中CD属于{ABCD}分划,E属于{E}分划。

所以我们说{ABCD}在输入字符为b时是不可分划的。按照输入b转换到的组,我们将{ABCD}分划为{ABC}和{D}两个组。同时将{ABCD}从组集合中删除。因为{ABCD}已经分划为{ABC}和{D}。

接下来看{ABC},先看在字符a上的转换:

A->a->B

B->a->B

C->a->B

因为全部都是到达的B,所以不可分划。

再看在字符b上的转换:

A->b->C

B->b->D

C->b->C

其中C属于{ABC}组,D属于{D}组。所以{ABC}可以分划为{AC}和{B}。

最后看{AC}组,A和C在字符a上都转换到B,在字符b上都转换到C,所以{AC}是不可分划的组。

最后得到的分组情况为:

{AC},{B},{D},{E}。

同一个组中只需要保留一个节点即可(因为同一个组的节点在转换上都是相同的),所以我们直接将C节点去除,保留A节点(因为A节点是开始状态节点)。最终得到的状态最小DFA的转换表为:


代码实现(关键代码)

  1. BOOLCDFA::FindRelationNode(list<DFANodeRelation>&lstNodeRelation,
  2. intnIdxFrom,unsignedcharch,int&nMapToIdx)
  3. {
  4. list<DFANodeRelation>::iteratorit=lstNodeRelation.begin();
  5. for(;it!=lstNodeRelation.end();it++)
  6. {
  7. if(it->m_nIdxFrom==nIdxFrom&&it->m_ch==ch)
  8. nMapToIdx=it->m_nIdxTo;
  9. returnTRUE;
  10. }
  11. }
  12. returnFALSE;
  13. intCDFA::FindIdxInListSet(intnMapToIdx,list<set<int>>&lstSet)
  14. inti=0;
  15. for(list<set<int>>::iteratorit=lstSet.begin();it!=lstSet.end();it++,i++)
  16. set<int>&setIdx=*it;
  17. for(set<int>::iteratoritInt=setIdx.begin();itInt!=setIdx.end();itInt++)
  18. if(nMapToIdx==*itInt)
  19. returni;
  20. return-1;
  21. BOOLCDFA::PartitionOneGroup(list<set<int>>&lstSet,set<int>&setOneGroup,85); line-height:18px"> list<DFANodeRelation>&lstNodeRelation,
  22. map<int,87); background-color:inherit; font-weight:bold">int>>&mapPartitionInfo)
  23. BOOLbRet=FALSE;
  24. list<DFANodeRelation>::iteratoritRelation;
  25. set<unsignedchar>setChar;
  26. set<int>setMapToIdx;
  27. try
  28. //collecteachnode'stranslationcharintheset
  29. for(set<int>::iteratorit=setOneGroup.begin();it!=setOneGroup.end();it++)
  30. for(itRelation=lstNodeRelation.begin();itRelation!=lstNodeRelation.end();itRelation++)
  31. if(itRelation->m_nIdxFrom==*it)
  32. setChar.insert(itRelation->m_ch);
  33. //endcollect
  34. for(set<unsignedchar>::iteratorit=setChar.begin();it!=setChar.end();it++)
  35. mapPartitionInfo.clear();
  36. intnMapToIdx=-1;//indicatemaptoadeadstate,therenotranslationforthispairofnode/char
  37. int>::iteratoritNodeId=setOneGroup.begin();itNodeId!=setOneGroup.end();itNodeId++)
  38. if(FindRelationNode(lstNodeRelation,*itNodeId,*it,nMapToIdx))
  39. intnIdx=FindIdxInListSet(nMapToIdx,lstSet);
  40. if(nIdx==-1)
  41. assert(FALSE);
  42. mapPartitionInfo[nIdx].insert(*itNodeId);
  43. else
  44. mapPartitionInfo[-1].insert(*itNodeId);
  45. if(mapPartitionInfo.size()>1)//haddistinguish
  46. break;
  47. catch(...)
  48. gotoExit0;
  49. bRet=TRUE;
  50. Exit0:
  51. returnbRet;
  52. BOOLCDFA::PartitionGroups(list<set< list<set<int>>::iteratorit=lstSet.begin();
  53. int>>mapPartitionInfo;
  54. //usedmaptorecordthenodecantranslatetowhichgroup,
  55. //theint(mapkey)isgroupid.
  56. //theset<int>containthenodeIDthatcantranslatetothegroup.
  57. for(;it!=lstSet.end();)
  58. mapPartitionInfo.clear();
  59. int>&setOneGroup=*it;
  60. CHECK_BOOL(PartitionOneGroup(lstSet,setOneGroup,lstNodeRelation,mapPartitionInfo));
  61. //meansthatcurrentgroupcanpartition
  62. int>>::iteratoritM=mapPartitionInfo.begin();
  63. for(;itM!=mapPartitionInfo.end();itM++)
  64. lstSet.push_back(itM->second);
  65. catch(...)
  66. gotoExit0;
  67. it=lstSet.erase(it);//ifagrouphadpartition,thegroupneeddeleteinthelist
  68. it++;
  69. /**
  70. @briefMinimizeDFA
  71. @paramnSetSizenodecount
  72. @paramlstNodeRelationnoderelationtable
  73. @paramsetAcceptingIdxsetforAcceptingstatusnode'sindex
  74. @paramlstSetforsavetheresult
  75. @returnTRUE,success;otherwisemeansfail.
  76. */
  77. BOOLCDFA::MinimizeDFA(intnNodeCount,87); background-color:inherit; font-weight:bold">int>&setAcceptingIdx,87); background-color:inherit; font-weight:bold">int>>&lstSet
  78. )
  79. int>setUnAccepting;
  80. assert(nNodeCount>=1);
  81. assert(setAcceptingIdx.size()!=0);
  82. assert(lstNodeRelation.size()!=0);
  83. lstSet.clear();
  84. lstSet.push_back(setAcceptingIdx);
  85. //getunAcceptingset
  86. for(inti=0;i<nNodeCount;i++)
  87. if(setAcceptingIdx.find(i)==setAcceptingIdx.end())
  88. setUnAccepting.insert(i);
  89. if(setUnAccepting.size()>0)
  90. lstSet.push_back(setUnAccepting);
  91. CHECK_BOOL(PartitionGroups(lstSet,lstNodeRelation));
  92. returnbRet;
  93. }

完整引擎代码在github上,地址为: https://github.com/sun2043430/RegularExpression_Engine.git

猜你在找的正则表达式相关文章