我最初的尝试看起来像这样(假设我们想要成倍增加)
__m128 mat[n]; /* rows */ __m128 vec[n] = {1,1,1}; float outvector[n]; for (int row=0;row<n;row++) { for(int k =3; k < 8; k = k+ 4) { __m128 mrow = mat[k]; __m128 v = vec[row]; __m128 sum = _mm_mul_ps(mrow,v); sum= _mm_hadd_ps(sum,sum); /* adds adjacent-two floats */ } _mm_store_ss(&outvector[row],_mm_hadd_ps(sum,sum)); }
但这显然不起作用.我该如何处理?
我应该一次加载4个….
另一个问题是:如果我的数组非常大(比如n = 1000),我该如何才能使它16字节对齐?这有可能吗?
解决方法
好的……我将使用行主矩阵约定. [m]的每一行需要(2)__m128元素才能产生8个浮点数. 8×1向量v是列向量.由于您正在使用haddps指令,我将假设SSE3可用.求r = [m] * v:
void mul (__m128 r[2],const __m128 m[8][2],const __m128 v[2]) { __m128 t0,t1,t2,t3,r0,r1,r2,r3; t0 = _mm_mul_ps(m[0][0],v[0]); t1 = _mm_mul_ps(m[1][0],v[0]); t2 = _mm_mul_ps(m[2][0],v[0]); t3 = _mm_mul_ps(m[3][0],v[0]); t0 = _mm_hadd_ps(t0,t1); t2 = _mm_hadd_ps(t2,t3); r0 = _mm_hadd_ps(t0,t2); t0 = _mm_mul_ps(m[0][1],v[1]); t1 = _mm_mul_ps(m[1][1],v[1]); t2 = _mm_mul_ps(m[2][1],v[1]); t3 = _mm_mul_ps(m[3][1],v[1]); t0 = _mm_hadd_ps(t0,t3); r1 = _mm_hadd_ps(t0,t2); t0 = _mm_mul_ps(m[4][0],v[0]); t1 = _mm_mul_ps(m[5][0],v[0]); t2 = _mm_mul_ps(m[6][0],v[0]); t3 = _mm_mul_ps(m[7][0],t3); r2 = _mm_hadd_ps(t0,t2); t0 = _mm_mul_ps(m[4][1],v[1]); t1 = _mm_mul_ps(m[5][1],v[1]); t2 = _mm_mul_ps(m[6][1],v[1]); t3 = _mm_mul_ps(m[7][1],t3); r3 = _mm_hadd_ps(t0,t2); r[0] = _mm_add_ps(r0,r1); r[1] = _mm_add_ps(r2,r3); }
至于对齐,__ m128类型的变量应该在堆栈上自动对齐.对于动态内存,这不是一个安全的假设.一些malloc / new实现可能只返回保证为8字节对齐的内存.
intrinsics标头提供_mm_malloc和_mm_free.在这种情况下,align参数应为(16).