多cpu服务器正在运行多个进程.一个进程有一个线程应始终处于旋转状态,使用100%的cpu分配.我当前的方法(除了询问开发人员……)在进程上使用strace等待信息到达它的打开文件描述符并使用recvfrom(2)连续检查它,其中erno设置为EAGAIN并且方法返回-1当没有数据包要从网络套接字读取时.
我不习惯堆栈跟踪生产设置,这是一种笨拙的方法来充分确定这些信息.我在讨论proc(5)并且认为/ proc / [pid] / fdinfo中的flags字段的值可能对检查该进程是否正在使用一个使用O_NONBLOCK模式调用open(2)的套接字很有用.
我现在正在努力对这个值进行逆向工程.我知道它代表文件状态和文件模式的按位OR.所以我想我可以检查源头文件中的常量open(2)在特定内核上使用的值,然后按位或者它们直到我找到一个与fdinfo中匹配的值相匹配的值.这似乎相当笨重,如果任何人都可以验证上述方法(我还不能)或提供更优雅的解决方案,我会非常感激.
我也知道fnctl(2)可以将文件描述符设置为非阻塞状态,但是暂时将其等同于打开
解决方法
是的,这是检查套接字是否无阻塞的有效方法.
非阻塞套接字的值为04000,/ proc /< pid> / fdinfo中的非阻塞套接字以八进制表示.
您可以使用python验证此行为.
Python 2.7.5 (default,Feb 19 2014,13:47:28) [GCC 4.8.2 20131212 (Red Hat 4.8.2-7)] on linux2 Type "help","copyright","credits" or "license" for more information. >>> from socket import * >>> import os >>> from os import O_NONBLOCK >>> s = socket(AF_INET,SOCK_STREAM) >>> s.setblocking(0) >>> print open("/proc/self/fdinfo/{0}".format(s.fileno())).read(4096) pos: 0 flags: 04002 >>> if 04002 & O_NONBLOCK: ... print "yes" ... else: ... print "no" ... yes
所以,现在你知道了,我必须指出你的开发人员做错了.如果非阻塞套接字是他们想要使用的东西,那很好 – 但是他们应该在套接字上设置一个epoll(2)并阻止轮询.
该程序在产生EAGAIN的非阻塞套接字上没有从read(2)获得任何东西 – 事实上,结果更糟糕,因为几乎所有系统调用都是抢占点,内核可以在上下文中切换你.
这个开发人员正在浪费能力,可以用于空闲线程的cpu周期,并且实际上并没有从他们这样做的方式获得任何好处.
如果开发人员想要“缓存行”友好,那么将他的任务固定到特定的cpu并完成它.