我提出了几个策略,但我不完全确定它们如何影响整体行为.我知道平均情况是O(NlogN),所以我认为这将是某个地方的答案.如果我只选择数组中的第一项作为快速排序的枢轴,我想把NlogN 1放入,但我不知道这是正确还是可接受?如果有人能够在这个主题上启发我会很棒.谢谢!
可能的策略:
a)数组是随机的:选择第一项,因为这是最具成本效益的选择.
b)数组主要是排序的:选择中间项,这样我们很可能会赞美每次拆分的二进制递归.
c)数组相对较大:选择数组中的第一个,中间和最后一个索引并进行比较,选择最小的索引以确保避免最坏的情况.
上述讨论中的一个重要细节是,如果用任何常数分裂代替75%/ 25%分裂 – 比如,(100-k%)/ k%分裂 – 过度渐近分析是相同的.平均而言,你会得到快速排序O(n lg n)时间.
我之所以提到这个证明的原因是它为你提供了一个很好的框架来思考如何在快速排序中选择一个支点.如果您可以在每个迭代中选择一个非常靠近中间的轴,则可以保证O(n lg n)运行时.如果你不能保证你会在任何迭代上得到一个好的支点,但是可以说在期望它只需要一个恒定的迭代次数才能得到一个好的支点,那么你也可以保证O(n lg n)预期运行时间
鉴于此,让我们来看看你提出的支点方案.对于(a),如果数组是随机的,则选择第一个元素作为数据透视表与在每个步骤选择一个随机数据透视图基本相同,因此通过上面的分析,您将获得期望的O(n lg n)运行时.对于(b),如果您知道数组主要是排序的,那么选择中位数是一个很好的策略.原因是如果我们可以说每个元素与排序序列中的位置“非常接近”,那么你可以创建一个参数,你选择的每个数据透视都是一个很好的支点,给你O(n lg n你想要的运行时间. (术语“非常接近”在数学上并不精确,但我认为如果你愿意,你可以在没有太多困难的情况下将其正式化).
至于(c)和(d),在这两者中,(d)是唯一一个保证在期望中获得O(n lg n)的人.如果确定性地选择某些元素作为枢轴使用,那么您的算法将容易受到确定性序列的影响,这些序列可以将其简化为O(n2)行为.实际上有一篇关于这个的真正有趣的论文叫做McIlroy的“A Killer Adversary for Quicksort”,描述了你如何通过使用恶意比较函数来获取任何确定性快速排序并为其构建病态最坏情况输入.您几乎肯定希望在任何真正的快速实施中避免这种情况,因为否则恶意用户可以通过输入这些杀手序列来强制您的程序在二次时间内排序并因此挂起来对您的代码发起DoS攻击.另一方面,因为(d)随机选取其样本点,所以它不容易受到这种攻击,因为在任何序列上,枢轴的选择是随机的.
有趣的是,对于(d),虽然选择三个随机元素并取中位数并没有什么坏处,但你不需要这样做.早期的证据足以证明你可以通过一个随机的枢轴选择得到O(n lg n).我实际上不知道选择三个随机值的中位数是否会提高快速排序算法的性能,但是因为快速排序总是Ω(n lg n),所以它肯定不会比仅选择随机元素更渐进.支点.