好的,我们的新版本在每个服务器上随机间隔有100%的cpu峰值.对于很长的时间,它会使网站完全没有响应 – 这将是在不同国家的人登录到网站等高峰时间.
我们已经看过perfmom,内存分析器,CLR分析器,sql剖析器,红门蚂蚁分析器,在UAT中尝试过负载测试 – 但是甚至无法重现问题.这可能意味着只有成千上万的用户访问实际网站会导致它发生.
我们注意到的一个模式是新代码 – 破坏的构建 – 实际上使用的线程明显减少了.
我们也在为国际奥委会使用春天 – 这有床名声吗?
更糟糕的是,由于业务影响,我们无法部署到现场 – 因此无法将问题缩小到我们添加的新功能的子集.
我们真的被摧毁了 – 有没有人得到任何可以挽救我们生命的战争伤痕?
我建议使用Sos在WinDdg中进行内存转储和分析.我在生产中修复了一些问题,如果没有WinDbg,我可能无法诊断.
Tess Fernandez有很棒的博客,您可以在其中学习如何分析内存转储.