我想比较两行像素.
像素被定义为包含4个浮点值(RGBA)的结构.
我不使用memcmp的原因是因为我需要返回第一个不同像素的位置,memcmp不会这样做.
我的第一个实现使用SSE内在函数,比memcmp慢约30%:
inline int PixelMemCmp(const Pixel* a, const Pixel* b, int count)
{
for (int i = 0; i < count; i++)
{
__m128 x = _mm_load_ps((float*)(a + i));
__m128 y = _mm_load_ps((float*)(b + i));
__m128 cmp = _mm_cmpeq_ps(x, y);
if (_mm_movemask_ps(cmp) != 15) return i;
}
return -1;
}
然后我发现将值视为整数而不是浮点数加速了一些事情,现在比memcmp慢了约20%.
inline int PixelMemCmp(const Pixel* a, const Pixel* b, int count)
{
for (int i = 0; i < count; i++)
{
__m128i x = _mm_load_si128((__m128i*)(a + i));
__m128i y = _mm_load_si128((__m128i*)(b + i));
__m128i cmp = _mm_cmpeq_epi32(x, y);
if (_mm_movemask_epi8(cmp) != 0xffff) return i;
}
return -1;
}
从我在其他问题上看到的内容,memcmp的MS实现也是使用SSE实现的.我的问题是,MS实现的其他技巧是什么呢?我不这样做?即使它进行逐字节比较,它仍然如何更快?
对齐是一个问题吗?如果像素包含4个浮点数,则不会在16字节边界上分配像素数组?
我正在使用/ o2和所有优化标志进行编译.
解决方法:
我已经用SSE(和MMX / 3DNow!)编写了strcmp / memcmp优化,第一步是确保数组尽可能对齐 – 你可能会发现你必须做第一个和/或最后一个字节“一个一次“.
如果您可以在数据进入循环之前对齐[如果您的代码进行了分配],那么这是理想的.
第二部分是展开循环,所以你不会得到这么多“如果循环不在最后,跳回循环的开头” – 假设循环很长.
您可能会发现在执行“我们现在离开”条件之前预加载输入的下一个数据也有帮助.
编辑:最后一段可能需要一个例子.此代码假定至少有两个展开的循环:
__m128i x = _mm_load_si128((__m128i*)(a));
__m128i y = _mm_load_si128((__m128i*)(b));
for(int i = 0; i < count; i+=2)
{
__m128i cmp = _mm_cmpeq_epi32(x, y);
__m128i x1 = _mm_load_si128((__m128i*)(a + i + 1));
__m128i y1 = _mm_load_si128((__m128i*)(b + i + 1));
if (_mm_movemask_epi8(cmp) != 0xffff) return i;
cmp = _mm_cmpeq_epi32(x1, y1);
__m128i x = _mm_load_si128((__m128i*)(a + i + 2));
__m128i y = _mm_load_si128((__m128i*)(b + i + 2));
if (_mm_movemask_epi8(cmp) != 0xffff) return i + 1;
}
大概是这样的.
标签:c,visual-c,sse,memcmp 来源: https://codeday.me/bug/20190825/1723822.html
本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享; 2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关; 3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关; 4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除; 5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。