例如,假设我们有一组X =数组(1,2,3,4,5,6)和另一组S,其中
S[1]=array(1,4) S[2] =array(2,5) S[3] =array(3,6) S[4] =array(1,3) S[5] =array(4,6)
问题是找到覆盖X的每一个元素的最小S集合.因此,我们这个例子中最小集合覆盖将是S [4]和S [5],因为它覆盖了所有元素.
有人有一个想法如何在PHP中实现这个代码.注意,这是NP-complete,所以没有快速的算法来解决它.欢迎任何PHP解决方案.而BTW它不是一个功课,我需要在我的Web应用程序中使用这个算法,以生成建议列表.
提前致谢.
更新1
集合覆盖问题有很多应用.一些有趣的是:
>最优逻辑电路的构建
>机组人员安排
>装配线平衡
>信息检索
>美术馆问题
基因组测序
>红蓝SetCover问题
更新2
例如,here你可以看到我提到的问题的工作版本.在这里,即使它可视地显示集合.但是我需要纯PHP代码,如果有人有,请给我们提供PHP中的工作示例.谢谢
更新3
最后我用PHP解决了这个问题.我的解决方案基于这个算法提出的一本非常着名的书,叫做Introduction to Algorithms,部分集合问题.这里我的解决方案如何:
$MainSet=array(1,6,7); $SubSet=array(array(1,4),array(2,5),array(3,6),array(1,3),array(4,6)); $UncoveredElements=$MainSet; $CoveringSets=array(); while (count($UncoveredElements)>0){ $S=SubSetS($UncoveredElements,$SubSet); if (is_array($S)){ $UncoveredElements=array_diff($UncoveredElements,$S); $CoveringSets[]=$S; }else break; //finish work } echo "Sets that cover MainSet are:"; var_dump($CoveringSets); //Subset S is chosen that covers as many uncovered elements as possible function SubSetS($UncoveredElements,$SubSetArr){ $max=0; $s=array(); foreach($SubSetArr as $SubSet){ $intersectArr=array_intersect($UncoveredElements,$SubSet); $weight=count($intersectArr); if ($weight>$max){ $max=$weight; $s=$SubSet; } } if ($max>0) return $s; else return 0; }
关于我的解决方案的任何意见和想法?对我来说,它解决了我的问题,就是我想要的.但是,如果您建议任何优化,更正代码,请填写免费.
BTW,非常感谢参与者的宝贵回应.
最终更新
这种用于集合覆盖问题的贪婪方法并不总是保证最佳解决方案.请考虑以下示例:
给定:主集的元素= {1,6}
现在,考虑4个子集,如下:子集1 = {1,2},子集2 = {3,4},子集3 = {5,6},子集4 = {1,5}.
以上集合的贪婪算法给出了最小集合封面:
最小集封面包含子集= {1,4}.
因此,尽管覆盖主集合的所有元素的子集的最小集合是前三个子集,但是我们得到包含所有4个子集的解.
你需要一个最佳的解决方案吗?因为找到最小集合封面是一个非常不同的算法问题,因为找到一个相当小的集合封面.前者的算法必须非常仔细地写入,以免大量输入. (通过我的大输入,我的意思是说,40个子集.)后者的算法很容易,你用自己的代码做了很好的工作.我会改变的一件事是,在你的循环语句“foreach($SubSetArr as $SubSet)”之前,我将随机化子集列表.这为算法提供了许多输入的最佳选择机会. (但是,有一些例子,其中最小集合覆盖不包括最大的子集,所以对于某些输入,这个特定的贪婪算法将无法找到最小值,无论顺序如何).
如果你真的想要最小的封面,而不只是一个很好的封面,那么你应该说出你希望代码完全解决的最大的输入.这是一个关键的细节,影响算法需要为您的任务花哨.
要回应其他人的看法:首先,如果您想要最佳解决方案,则无需搜索所有子集.其次,您不应该为该问题寻找“该”算法.这个问题有很多算法,比其他算法要快一些,比其他算法复杂一些.
这里有一种方法可以从搜索所有集合的算法开始,并加速它,使之更好.我不会提供代码,因为我不认为提问者想要这样一个奇特的解决方案,但我可以描述这些想法.您可以将搜索排列为分支搜索:最佳集合覆盖包含最大子集A或不包含. (从最大的集合开始就可以正常工作.)如果是这样,您可以从元素列表中删除A的元素,从其他子集的元素中删除A的元素,并解决剩余子集覆盖问题.如果没有,您仍然可以从子集列表中删除A并解决剩余子集覆盖问题.
到目前为止,这只是一种安排搜索所有内容的方法.但是,在这种递归算法中有几种重要的方法来获取快捷方式.当您找到解决方案时,您可以保留迄今为止发现的最佳记录.这设定了你必须打败的门槛.在每个阶段,您可以总计剩余的最大阈值-1个子集的大小,并查看它们是否有足够的元素来覆盖其余的元素.如果没有,你可以放弃;你不会超过当前的门槛.
另外,如果在这个递归算法中,任何元素只被一个子集覆盖,那么你可以抛出该子集来确定它是否是最大的. (事实上,添加这一步甚至是Bakhtiyor编码的贪婪算法是个好主意.)
这两个加速度可以从搜索树中分离出大量的分支,并且它们组合起来更好.
由于Don Knuth所谓的“跳舞链接”,这种类型的问题还有一个聪明的数据结构.他提出了一个确切的覆盖问题,这是一个有点不同于这一个,但你可以适应最小的子集覆盖和上面的所有想法.跳舞链接是一个相互链接的列表的网格,允许您检查递归搜索中的子集,而无需复制整个输入.