我最初的尝试看起来像这样(假设我们想要成倍增加)
- __m128 mat[n]; /* rows */
- __m128 vec[n] = {1,1,1};
- float outvector[n];
- for (int row=0;row<n;row++) {
- for(int k =3; k < 8; k = k+ 4)
- {
- __m128 mrow = mat[k];
- __m128 v = vec[row];
- __m128 sum = _mm_mul_ps(mrow,v);
- sum= _mm_hadd_ps(sum,sum); /* adds adjacent-two floats */
- }
- _mm_store_ss(&outvector[row],_mm_hadd_ps(sum,sum));
- }
但这显然不起作用.我该如何处理?
我应该一次加载4个….
另一个问题是:如果我的数组非常大(比如n = 1000),我该如何才能使它16字节对齐?这有可能吗?
解决方法
好的……我将使用行主矩阵约定. [m]的每一行需要(2)__m128元素才能产生8个浮点数. 8×1向量v是列向量.由于您正在使用haddps指令,我将假设SSE3可用.求r = [m] * v:
- void mul (__m128 r[2],const __m128 m[8][2],const __m128 v[2])
- {
- __m128 t0,t1,t2,t3,r0,r1,r2,r3;
- t0 = _mm_mul_ps(m[0][0],v[0]);
- t1 = _mm_mul_ps(m[1][0],v[0]);
- t2 = _mm_mul_ps(m[2][0],v[0]);
- t3 = _mm_mul_ps(m[3][0],v[0]);
- t0 = _mm_hadd_ps(t0,t1);
- t2 = _mm_hadd_ps(t2,t3);
- r0 = _mm_hadd_ps(t0,t2);
- t0 = _mm_mul_ps(m[0][1],v[1]);
- t1 = _mm_mul_ps(m[1][1],v[1]);
- t2 = _mm_mul_ps(m[2][1],v[1]);
- t3 = _mm_mul_ps(m[3][1],v[1]);
- t0 = _mm_hadd_ps(t0,t3);
- r1 = _mm_hadd_ps(t0,t2);
- t0 = _mm_mul_ps(m[4][0],v[0]);
- t1 = _mm_mul_ps(m[5][0],v[0]);
- t2 = _mm_mul_ps(m[6][0],v[0]);
- t3 = _mm_mul_ps(m[7][0],t3);
- r2 = _mm_hadd_ps(t0,t2);
- t0 = _mm_mul_ps(m[4][1],v[1]);
- t1 = _mm_mul_ps(m[5][1],v[1]);
- t2 = _mm_mul_ps(m[6][1],v[1]);
- t3 = _mm_mul_ps(m[7][1],t3);
- r3 = _mm_hadd_ps(t0,t2);
- r[0] = _mm_add_ps(r0,r1);
- r[1] = _mm_add_ps(r2,r3);
- }
至于对齐,__ m128类型的变量应该在堆栈上自动对齐.对于动态内存,这不是一个安全的假设.一些malloc / new实现可能只返回保证为8字节对齐的内存.
intrinsics标头提供_mm_malloc和_mm_free.在这种情况下,align参数应为(16).