我已经做了一段时间的爱好项目(用C语言编写),但还远未完成.它非常重要,它会很快,所以我最近决定做一些基准测试来验证我解决问题的方法效率不高.
$time ./old
real 1m55.92
user 0m54.29
sys 0m33.24
我重新设计了程序的一部分,以显着删除不必要的操作,减少内存缓存未命中和分支错误预测.精彩的Callgrind工具向我展示了越来越多令人印象深刻的数字.大多数基准测试都是在不分支外部流程的情况下完成的.
$time ./old --dry-run
real 0m00.75
user 0m00.28
sys 0m00.24
$time ./new --dry-run
real 0m00.15
user 0m00.12
sys 0m00.02
显然我至少做对了.然而,运行真实的程序讲述了一个不同的故事.
$time ./new
real 2m00.29
user 0m53.74
sys 0m36.22
您可能已经注意到,时间主要取决于外部流程.我不知道是什么导致了回归.它没什么好奇怪的;只是一个传统的vfork / execve / waitpid由一个线程完成,以相同的顺序运行相同的程序.
有些东西必须导致分支变慢,所以我做了一个小测试(类似于下面的测试)只会产生新进程并且不会产生与我的程序相关的开销.显然这必须是最快的.
#define _GNU_SOURCE
#include
我猜不会.
这时我决定投票给州长表现,时间变得更好了:
$for i in 0 1 2 3 4 5 6 7; do sudo sh -c "echo performance > /sys/devices/system/cpu/cpu$i/cpufreq/scaling_governor";done
$time ./test
real 1m03.44
user 0m29.30
sys 0m10.66
似乎每个新进程都安排在一个单独的核心上,并且它需要一段时间才能切换到更高的频率.我不能说为什么旧版本跑得更快.也许这很幸运.也许它(由于效率低下)导致cpu更早地选择更高的频率.
改变调控器的一个很好的副作用是编译时间也得到了改善.显然编译需要许多新流程.但这不是一个可行的解决方案,因为这个程序必须在其他人的台式机(和笔记本电脑)上运行.
我发现改善原始时间的唯一方法是通过在开头添加此代码将程序(和子进程)限制为单个cpu:
cpu_set_t mask;
cpu_ZERO(&mask);
cpu_SET(0,&mask);
sched_setaffinity(0,sizeof(mask),&mask);
尽管使用默认的“ondemand”调控器,这实际上是最快的:
$time ./test
real 0m59.74
user 0m29.02
sys 0m10.67
它不仅是一个hackish解决方案,而且在启动的程序使用多个线程的情况下也不能很好地工作.我的程序无法知道这一点.
有没有人知道如何让产生的进程以高cpu时钟频率运行?它必须是自动化的,不需要su priviliges.虽然到目前为止我只在Linux上测试了这个,但我打算将它移植到或多或少所有流行和不受欢迎的桌面操作系统(它也将在服务器上运行).欢迎任何平台上的任何想法.