例如,功能是:
void foo(float*,float*,int,float); void foo(float*,float,int);
有相同或不同的开销?
编辑:我不是在询问编译器如何优化.我特别询问cdecl calling convention在各种ABI上的开销会有多大差异.
解决方法
传统的调用约定几乎总是在堆栈上分配参数空间,并且总是存在与将参数复制到此空间相关的开销.
假设一个严格的易变环境,可能存在的唯一额外开销可能来自内存对齐问题.在给定的示例中,参数将位于连续的内存中,因此不会有任何填充正确对齐.
对于具有不同大小类型的参数,以下声明中的参数:
int func (int a,char c,int b)
将在它们之间填充,而在此声明中的填充:
int func (int a,int b,char c)
将不会.
前者的堆栈框架可能如下所示:
| local vars... | low memory +---------------+ - frame pointer | a | a | a | a | | c | X | X | X | | b | b | b | b | +---------------+ high memory
对于后者:
| local vars... | low memory +---------------+ - frame pointer | a | a | a | a | | b | b | b | b | | c | X | X | X | +---------------+ high memory
调用函数时,参数将按照它们出现的顺序写入堆栈内存,因此对于前者,您将写入int的4个字节,即char c的1个字节,然后您需要跳过这3个字节用于写入int b的4个字节的字节.
在后者中,您将写入连续的内存位置,并且不需要考虑填充导致的跳过.
在一个不稳定的环境中,我们谈论的是跳过几纳秒的性能差异.性能损失可能是可检测的,但几乎可以忽略不计.
(顺便说一句,跳过的方式完全取决于架构……但我一般都认为下一个地址填充的偏移量更大.我不完全确定如何以不同的方式完成不同的架构).
当然,在非易失性环境中,当我们利用cpu缓存时,性能下降到几分之一纳秒.我们冒险进入无法察觉的角色,因此差异实际上是不存在的.
数据填充实际上只是空间成本.当您在嵌入式系统中工作时,您需要从大到小排序参数以减少(有时消除)填充.
因此,据我所知(没有更多信息,如特定机器或架构上的内存之间的确切数据传输速率),不应该对不同的参数订单产生性能影响.