c – vector :: operator []开销

显然,在剖析我的(科学计算)C代码之后,25％(！)的时间花在与vector :: operator []的调用上.诚然,我的代码花费了所有的时间读取和写入矢量< float> s(和一些向量< int> s),但是我仍然想知道是否应该有一些显着的操作开销[ ]与C风格的阵列相比？

(我已经看到关于SO的另一个相关问题,但是关于[] vs at() – 但显然甚至[]对我来说太慢了！

谢谢,
安东尼

(编辑：只是为了信息：在Ubuntu上使用g -O3版本4.5.2)

解决方法

std :: vector :: operator []应该是相当有效的,但是编译器必须是偏执的,对于对函数的每个调用,它必须假定向量可能已经被移动到内存中的其他位置.

例如在这段代码中

for (int i=0,n=v.size(); i<n; i++)
{
    total += v[i] + foo();
}

如果foo的代码不是预先知道的,那么编译器每次都被迫重新加载向量开始的地址,因为向量可能是由于foo()中的代码而被重新分配的.

如果您确定该矢量不会被内存移动或重新分配,那么您可以使用类似于

double *vptr = &v[0]; // Address of first element
for (int i=0,n=v.size(); i<n; i++)
{
    total += vptr[i] + foo();
}

使用这种方法,可以保存一个存储器查找操作(vptr可能最终在整个循环的寄存器中).

低效率的另一个原因可能是缓存垃圾.为了看看这是否是一个问题,一个简单的伎俩是通过一些不均匀的元素来过度分配你的矢量.

原因是因为缓存如何工作,如果你有很多向量,例如4096个元素都将在地址中具有相同的低阶位,并且由于缓存行无效,您可能会最终失去很多速度.
例如我的电脑上的这个循环

std::vector<double> v1(n),v2(n),v3(n),v4(n),v5(n);
for (int i=0; i<1000000; i++)
    for (int j=0; j<1000; j++)
    {
        v1[j] = v2[j] + v3[j];
        v2[j] = v3[j] + v4[j];
        v3[j] = v4[j] + v5[j];
        v4[j] = v5[j] + v1[j];
        v5[j] = v1[j] + v2[j];
    }

如果n == 8191执行约8.1秒,如果n == 10000则在3.2秒内执行.注意,内循环始终为0到999,与n的值无关;只是内存地址有什么不同？

根据处理器/架构的不同,由于缓存丢失,我甚至观察到10倍的速度下降.

c – vector :: operator []开销

解决方法

猜你在找的C&C++相关文章