我有一个在Cent OS下运行的服务器应用程序.服务器每秒响应许多请求,但每小时左右后会反复崩溃并创建一个故障转储文件.情况非常糟糕,我需要尽快找出崩溃原因.
我怀疑问题是并发问题,但我不确定.我可以访问源代码和崩溃转储文件,但我不知道如何使用崩溃转储来指出问题所在.
任何建议都非常感谢.
解决方法
要查找的第一件事是程序崩溃时收到的错误消息.这通常会告诉您发生了什么样的错误.例如,“分段错误”或“SIGSEGV”几乎肯定意味着您的程序已取消引用NULL或其他无效指针.如果程序是用C语言编写的,那么错误消息通常会告诉您任何未捕获的异常的名称.
如果没有看到错误消息,则从命令行运行程序,或将其输出通过管道传输到文件中.
为了使核心文件真正有用,您需要在没有优化和调试信息的情况下编译程序. GCC需要以下选项:-g -O0. (确保您的构建没有任何其他-O选项.)
获得核心文件后,在gdb中打开它:
gdb YOUR-APP COREFILE
键入从何处查看发生崩溃的位置.您基本上处于正常的调试会话中 – 您可以检查变量,在堆栈中上下移动,在线程之间切换等等.
如果您的程序崩溃了,那么它可能是无效的内存访问 – 因此您需要查找具有零值的指针,或者指向看起来不好的数据的指针.您可能在堆栈的最底部找不到问题,在找到问题之前可能需要将堆栈向上移动几个级别.
祝好运!