我的 基于ACE的一个服务器通信程序,其中有以下一段代码:
ACE_THR_FUNC_RETURN threadFunc(void* arg) { LOG_INIT(); ACE_Time_Value timeout(5); ACE_Reactor * reactor=(ACE_Reactor*)arg; reactor->owner(ACE_OS::thr_self()); while(SERVER_RUNNING) { reactor->handle_events(timeout); } return 0; } int ACE_TMAIN(int,ACE_TCHAR**) { ....... int reactorThreadGroupId=0; reactorThreadGroupId=ACE_Thread_Manager::instance()->spawn_n(MAIN_REACTOR_THREAD_SIZE,threadFunc,ACE_Reactor::instance(),THR_NEW_LWP|THR_JOINABLE); if(reactorThreadGroupId==-1) { ACE_DEBUG((LM_INFO,ACE_TEXT("创建数据接收线程失败!"))); return -1; } PRINT_INFO_LOG("数据接收模块启动成功!"); ACE_Thread_Manager::instance()->wait_grp(reactorThreadGroupId); //开始结束程序 ....... }
SERVER_RUNNING 是一个全局变量,主程序运行标志,当程序接收到Ctrl+C信号或者从CGI接口接收到Stop命令时,程序做安全关闭动作,等所有线程安全结束后在关闭主线程,而不是蛮横的直接关闭主线程。
在服务器上程序运行后,就开始觉得服务器很卡,使用TOP命令查看了下,发现该程序cpu占用率很高,可此时服务器并没有接收到多少数据处理,所以我断定程序可能出现了死循环之类的错误。再加入一些调试信息后,重新运行程序发现reactor->handle_events(timeout);只是第一次阻塞了5s,然后就不再阻塞,而是直接执行了下去,类似于死循环,耗去了大量cpu资源。翻看ACE源码文件,发现了对handle_event(ACE_Time_Value*)的如下注释:
This event loop driver blocks for up to <max_wait_time> before returning. It will return earlier if timer events,I/O events,window events,or signal events occur.
Note that <max_wait_time> can be 0,in which case this method blocks indefinitely until events occur.
<max_wait_time> is decremented to reflect how much time this call took. For instance,if a time value of 3 seconds is passed to handle_events and an event occurs after 2 seconds,<max_wait_time> will equal 1 second. This can be used if an application wishes to handle events for some fixed amount of time.
原来Reactor的时间循环会阻塞MAX_WAIT_TIME时间,等待有各种注册事件发生后返回。MAX_WAIT_TIME可设为0,如过为0,则程序会一直阻塞,直到有事件发生才返回。MAX_WAIT_TIME时间内会递减以反应这次调用耗费了多少时间,比如如果将MAX_WAIT_TIME设为3s,而2s后一个事件发生,那么MAX_WAIT_TIME值将会变为1s。
终于知道我程序的问题了,当程序第一次阻塞时,time_out是5s,但5s超时后,handle_event超时返回,而MAX_WAIT_TIME变为了0s,注意:MAX_WAIT_TIME是0s,并不是指这个参数为0,handle_event 阻塞时,0s超时,即不会阻塞,直接返回了,所以程序这里类似于一个死循环了,这也就导致了top命令下,该程序cpu占用率极高。
综上,程序修改如下:
ACE_THR_FUNC_RETURN threadFunc(void* arg) { LOG_INIT(); ACE_Time_Value timeout; ACE_Reactor * reactor=(ACE_Reactor*)arg; reactor->owner(ACE_OS::thr_self()); while(SERVER_RUNNING) { timeout.sec(5); reactor->handle_events(timeout); } return 0; }
ACE框架很强大,但里面有许许多多的细节问题,容易导致各种错误。这个时候,不要慌或者抱怨,去翻翻ACE手册或者源码文件,相信总能找到问题所在。