我有一个运行嵌入式Linux的系统,它连续运行至关重要.基本上,它是一个与传感器通信并将数据中继到数据库和Web客户端的过程.
如果发生崩溃,如何自动重启应用程序?
此外,有几个线程正在进行轮询(例如套接字和uart通信).如何确保没有线程挂断或意外退出?是否有一个易于使用的看门狗,线程友好?
最佳答案
它的要点是:
>您需要检测程序是否仍在运行而不是挂起.
>如果程序未运行或挂起,则需要(重新)启动程序.
>在UNIX域套接字上侦听,以处理状态请求.然后,外部应用程序可以查询应用程序是否仍然正常.如果在某个超时时间内没有响应,则可以假定被查询的应用程序已死锁或已死.
>定期触摸具有预选路径的文件.外部应用程序可以查看文件的时间戳,如果它是陈旧的,那么它可以假定应用程序已死或死锁.
关于#2,杀死先前的PID并使用fork exec启动新进程是典型的.您也可以考虑将“连续”运行的应用程序放入运行一次的应用程序中,然后使用“cron”或其他应用程序连续重新运行该单次运行的应用程序.
不幸的是,看门狗定时器和摆脱僵局是非常重要的问题.我不知道有什么通用的方法可以做到这一点,我见过的少数几个非常难看,而且不是100%没有bug.但是,tsan可以帮助检测静态分析中潜在的死锁情况和其他线程问题.