我正在调试一个在构建为64位
Linux ELF可执行文件时运行的应用程序,而不是32位Linux ELF可执行文件.使用Rational(IBM)Quantify,我将很多性能差异跟踪到(鼓辊…)memset.奇怪的是,memset在64位可执行文件中花费的时间要长得多.
我甚至可以用一个小而简单的应用程序看到这个:
#include <stdlib.h> #include <string.h> #define BUFFER_LENGTH 8000000 int main() { unsigned char* buffer = malloc(BUFFER_LENGTH * sizeof(unsigned char)); for(int i = 0; i < 10000; i++) memset(buffer,BUFFER_LENGTH * sizeof(unsigned char)); }
我建立如下:
$gcc -m32 -std = gnu99 -g -O3 ms.c
和
$gcc -m64 -std = gnu99 -g -O3 ms.c
时间报告的挂钟时间对于-m64构建来说更长,而Quantify确认额外的时间花在memset中.
到目前为止,我已经在VirtualBox和VMWare中测试过(但不是裸机Linux;我意识到下一步需要做).额外花费的时间似乎从一个系统到下一个系统有所不同.
这里发生了什么?有没有一个众所周知的问题,我的Google-foo无法发现?
编辑:我的系统上的反汇编(gcc … -S)显示memset作为外部函数被调用:
32位:
.LBB2: .loc 1 14 0 movl $8000000,8(%esp) .loc 1 12 0 addl $1,%ebx .loc 1 14 0 movl $0,4(%esp) movl %esi,(%esp) call memset
64位:
.LBB2: .loc 1 14 0 xorl %esi,%esi movl $8000000,%edx movq %rbp,%rdi .LVL1: .loc 1 12 0 addl $1,%ebx .loc 1 14 0 call memset
系统:
> CentOS 5.7 2.6.18-274.17.1.el5 x86_64
> GCC 4.1.2
> Intel(R)Core(TM)i7-2600K cpu @ 3.40GHz / VirtualBox
(Xeon E5620 @ 2.40GHz / VMWare的差异更大)
解决方法
我相信虚拟化是一个罪魁祸首:我已经自己运行了一些基准测试(大量随机数生成,顺序搜索,也是64位),并发现在VirtualBox中的Linux中的代码在Windows下比Windows下更慢.有趣的是,代码没有I / O(除了简单的printf,然后在时间之间),并且使用很少的内存(所有数据都适合L1缓存),所以可以认为你可以排除页表管理和TLB开销.
这真是神秘.我注意到VirtualBox向虚拟机报告SSE 4.1和SSE 4.2指令是不支持的,即使cpu支持它们,并且使用它们的程序在VM中运行正常(!).我没有时间进一步调查这个问题,但你真的应该在一台真正的机器上.不幸的是,我的程序不能运行在32位,所以我无法测试32位模式下的减速.