我正在尝试优化一个小的,高度使用的函数,该函数使用无符号short int中的高位来指示要一起求和的数组值.起初我使用下面显示的明显方法.请注意,循环展开未明确显示,因为它应由编译器完成.
int total = 0; for(unsigned short mask = 0x0001,j = 0; mask != 0; mask <<= 1,j++){ if (i & mask){ total += value[j]; } }
但是,后来我认为删除分支以帮助cpu流水线操作可能会更好,并提出以下建议.
int total = 0; for(unsigned short mask = 0x0001,j++){ total += ((i & mask) != 0) * value[j]; }
请注意,由于(i& mask)不会产生布尔答案,因此与0的比较会强制结果为1或0.虽然第二种方法从代码的这一部分中删除了if语句,但第二种解决方案除了等式的其余部分之外,还需要在每次迭代时运行0或1的乘法.
哪个代码运行得更快?