记一次 .NET 某仪器测量系统 CPU爆高分析

2023-09-22 13:01:27

一:背景

1. 讲故事

最近也挺奇怪,看到了两起 CPU 爆高的案例,且诱因也是一致的,觉得有一些代表性,合并分享出来帮助大家来避坑吧,闲话不多说,直接上 windbg 分析。

二:WinDbg 分析

1. CPU 真的爆高吗

这里要提醒一下,别人说爆高不一定真的就是爆高,我们一定要拿数据说话,可以用 !tp 观察下。


0:000> !tp
logStart: 132
logSize: 200
CPU utilization: 59 %
Worker Thread: Total: 6 Running: 6 Idle: 0 MaxLimit: 10 MinLimit: 4
Work Request in Queue: 0
--------------------------------------
Number of Timers: 3
--------------------------------------
Completion Port Thread:Total: 2 Free: 2 MaxFree: 8 CurrentLimit: 2 MaxLimit: 10 MinLimit: 4

虽然卦中的 CPU 不低但也不是我理想的阈值,不过分析也是可以分析的,知道了 CPU 的利用率,接下来我们看下这个 CPU 猛不猛,使用 !cpuid 看下核心数。


0:000> !cpuid
CP  F/M/S  Manufacturer     MHz
 0  6,167,1  <unavailable>    199
 1  6,167,1  <unavailable>    199
 2  6,167,1  <unavailable>    199
 3  6,167,1  <unavailable>    199

只有四个核心,看样子这 CPU 不咋地哈,接下来的问题是谁导致了 CPU 爆高呢?

2. 是谁导致的 CPU 爆高

如果你刚才仔细看 !tp 的输出,应该会发现这么一句话 Total: 6 Running: 6 ,这表示当前线程池中的所有工作线程火力全开,有了这个现象,思路就比较明朗了,为什么会火力全开,这些线程此时都在干什么? 我们使用 ~*e !clrstack 观察一下。


0:000> ~*e !clrstack
...
OS Thread Id: 0x1dd8 (58)
        Child SP               IP Call Site
...
00000065F623F360 00007ffc38383a06 xxx+c__DisplayClass18_0.b__0(System.Object)
00000065F623FA00 00007ffc385680e2 System.Threading.ThreadPoolWorkQueue.Dispatch() [/_/src/libraries/System.Private.CoreLib/src/System/Threading/ThreadPoolWorkQueue.cs @ 729]
00000065F623FA90 00007ffc9638e3ee System.Threading.PortableThreadPool+WorkerThread.WorkerThreadStart() [/_/src/libraries/System.Private.CoreLib/src/System/Threading/PortableThreadPool.WorkerThread.cs @ 63]
00000065F623FBA0 00007ffc96372eaf System.Threading.Thread.StartCallback() [/_/src/coreclr/System.Private.CoreLib/src/System/Threading/Thread.CoreCLR.cs @ 105]
00000065F623FE30 00007ffc9730af03 [DebuggerU2MCatchHandlerFrame: 00000065f623fe30] 
OS Thread Id: 0x15a8 (59)
        Child SP               IP Call Site
00000065F63BE6F8 00007ffca6905d14 [InlinedCallFrame: 00000065f63be6f8] Interop+Winsock.recv(System.Net.Sockets.SafeSocketHandle, Byte*, Int32, System.Net.Sockets.SocketFlags)
00000065F63BE6F8 00007ffc38521441 [InlinedCallFrame: 00000065f63be6f8] Interop+Winsock.recv(System.Net.Sockets.SafeSocketHandle, Byte*, Int32, System.Net.Sockets.SocketFlags)
00000065F63BE6C0 00007ffc38521441 ILStubClass.IL_STUB_PInvoke(System.Net.Sockets.SafeSocketHandle, Byte*, Int32, System.Net.Sockets.SocketFlags)
00000065F63BE790 00007ffc385679d1 System.Net.Sockets.Socket.Receive(Byte[], Int32, Int32, System.Net.Sockets.SocketFlags, System.Net.Sockets.SocketError ByRef) [/_/src/libraries/System.Net.Sockets/src/System/Net/Sockets/Socket.cs @ 1473]
...
00000065F63BF140 00007ffc3838ae0b xxx+c__DisplayClass18_0.b__0(System.Object)
00000065F63BF7E0 00007ffc385680e2 System.Threading.ThreadPoolWorkQueue.Dispatch() [/_/src/libraries/System.Private.CoreLib/src/System/Threading/ThreadPoolWorkQueue.cs @ 729]
00000065F63BF870 00007ffc9638e3ee System.Threading.PortableThreadPool+WorkerThread.WorkerThreadStart() [/_/src/libraries/System.Private.CoreLib/src/System/Threading/PortableThreadPool.WorkerThread.cs @ 63]
00000065F63BF980 00007ffc96372eaf System.Threading.Thread.StartCallback() [/_/src/coreclr/System.Private.CoreLib/src/System/Threading/Thread.CoreCLR.cs @ 105]
00000065F63BFC10 00007ffc9730af03 [DebuggerU2MCatchHandlerFrame: 00000065f63bfc10] 

通过仔细观察各个线程的线程栈,发现最多的是 xxx+c__DisplayClass18_0.b__0 方法,从底层的 PortableThreadPool 来看,这是 C# 自己封装的线程池,说明这是由 线程池工作线程创建的,再辅助一张截图:

接下来的方向是 xxx+c__DisplayClass18_0.b__0 为何方神圣,可能有些朋友对这种方法命名很奇怪,这里解释一下,一般都是 await, async 的底层弄出来的,由大量的状态机方法所致。

3. c__DisplayClass18_0 到底写了什么

知道了这个方法,接下来可以用 ILSPY 去观察下这段代码,截图如下:

上面这段代码不知道大家有没有看出什么问题? 至少我看到这样的代码我就知道 CPU 为什么会爆高了,两点原因。

  • 偷懒,无脑往线程池丢,导致线程增多
  • 线程中方法时间复杂度高。

关于时间复杂度高,在子函数很容易就能找到诸如此类代码,将一个 hash 用在了一个它最不擅长的地方,复杂度一下子就上来了。


public static xxx Getxxx(xxx conxx)
{
	xxx xxxInfo2 = conxxx;
	lock (xxx)
	{
		return hashxxxnfo.Where((xxxInfo x) => x.xxx == xxx.xxx && x.xxx == xxx.intPtr)?.FirstOrDefault();
	}
}

4. 其他dump呢

刚才我也说了,最近是连续看到了两个,另外一个也是很奇葩的,而且还更严重,使用 !tp 观察一下。


0:000> !tp
CPU utilization: 92%
Worker Thread: Total: 16 Running: 16 Idle: 0 MaxLimit: 32767 MinLimit: 16
Work Request in Queue: 17
    AsyncTimerCallbackCompletion TimerInfo@000000e644d32df0
    Unknown Function: 00007fff29dc17d0  Context: 000000e136337f58
    Unknown Function: 00007fff29dc17d0  Context: 000000e136344798
    Unknown Function: 00007fff29dc17d0  Context: 000000e1363479a8
    ...
    Unknown Function: 00007fff29dc17d0  Context: 000000e135730720
    Unknown Function: 00007fff29dc17d0  Context: 000000e13573ccd8
--------------------------------------
Number of Timers: 0
--------------------------------------
Completion Port Thread:Total: 1 Free: 1 MaxFree: 32 CurrentLimit: 1 MaxLimit: 1000 MinLimit: 16

从卦中看,cpu利用率更高,线程池队列还有任务堆积,用同样的方式也洞察出了它的问题代码,也是一个无脑丢。

5. 如何优化

要想把 CPU 弄下去,无非就是在 生产端消费端 进行双向打磨。

  1. 生产端

严格控制线程的个数,以排队的方式定时定量的处理,严禁无脑丢,因为运行的线程少了,cpu自然就下去了。

  1. 消费端

很多朋友写代码不注意时间复杂度,或者根本不关心,导致数据量稍微大一点,代码就接近死循环,真的是无语死了,所以尽量把代码性能优化再优化,提高单次处理速度,让 消费端 接待能力 大大超出 生产端。

三:总结

这两个 CPU 爆高事故还是非常经典的,根子上还是有不少初中级程序员具有 偷懒 + 无视算法 的思维,谨以这篇让后来的朋友少踩坑吧!

更多推荐

FOXBORO FBM233 P0926GX控制脉冲模块

FOXBOROFBM233P0926GX是一种控制脉冲模块,通常用于工业自动化和控制系统中。这个模块的主要功能是生成和控制脉冲信号,以用于执行特定的操作或控制过程。以下是可能适用于FOXBOROFBM233P0926GX控制脉冲模块的一些常见特点:脉冲生成:FBM233P0926GX模块通常能够生成可控的脉冲信号,包括

界面组件DevExpress WinForms v23.1 - 富文本编辑器等功能升级

DevExpressWinForms拥有180+组件和UI库,能为WindowsForms平台创建具有影响力的业务解决方案。DevExpressWinForms能完美构建流畅、美观且易于使用的应用程序,无论是Office风格的界面,还是分析处理大批量的业务数据,它都能轻松胜任!DevExpressWinForm控件已正

Vue3_vite

目录使用Vue-cli创建使用vite创建CompositionAPI组合APIsetup执行时机setup的参数ref函数reactive函数Vue3.0中的响应式原理Vue2的响应式实现原理Vue3的响应式实现原理通过Proxy(代理):拦截对象中任意属性的变化,包括属性值的读写,属性的添加,属性的删除。通过Ref

Linux网络编程

一.协议1.1什么是协议从应用的角度出发,协议可理解为“规则”,是数据传输和数据的解释的规则。假设,A、B双方欲传输文件。规定:第一次,传输文件名,接收方接收到文件名,应答OK给传输方;第二次,发送文件的尺寸,接收方接牧到该数据再次应答一个OK;第三次.传输文件内容。同样.接收方接收数据完成后应答OK表示文件内容接收成

【HCIE】04.网络安全技术

端口隔离在同一VLAN中可以隔离二层与三层通信,让同VLAN内的设备可以通信或者不可以通信。定义一个端口隔离组,在一个组内无法互访,不在一个组里面可以进行互访port-isolateenablegroup1//使能端口隔离功能port-isolatemdoeall//全局模式实现二层隔离,三层互访intg0/0/1po

207. 课程表

207.课程表题目-中等难度示例1.bfs题目-中等难度你这个学期必须选修numCourses门课程,记为0到numCourses-1。在选修某些课程之前需要一些先修课程。先修课程按数组prerequisites给出,其中prerequisites[i]=[ai,bi],表示如果要学习课程ai则必须先学习课程bi。例如

MySQL面试题——隔离级别相关面试题

隔离级别相关面试题MySQL事务隔离级别未提交读——可以读到其他事务未提交的数据(最新的版本)错误现象:脏读、不可重复读、幻读的现象提交读(RC)——可以读到其他事务已提交的数据(最新已提交的版本)错误现象:不可重复读、幻读现象使用场景:希望看到最新的有效值可重复读(RR)——在事务范围内,多次读能够保证一致性(快照建

69、Spring Data JPA 的 @Query查询 和 命名查询(半自动:提供 SQL 或 JPQL 查询)

1、方法名关键字查询(全自动,既不需要提供sql语句,也不需要提供方法体)2、@Query查询(半自动:提供SQL或JPQL查询)3、自定义查询(全手动)@Query查询和命名查询的区别:命名查询与直接用@Query来定义查询的本质是一样,只不过它们定义SQL或JPQL语句的位置不同。直接用@Query来定义查询,写S

MyBatisPlus使用自定义JsonTypeHandler实现自动转化JSON

个人主页:金鳞踏雨个人简介:大家好,我是金鳞,一个初出茅庐的Java小白目前状况:22届普通本科毕业生,几经波折了,现在任职于一家国内大型知名日化公司,从事Java开发工作我的博客:这里是CSDN,是我学习技术,总结知识的地方。希望和各位大佬交流,共同进步~背景在项目中使用了Mybatis-Plus框架,调用了Mapp

Android Jetpack解析之——LiveData

LiveData是一种可观察的数据存储器类。与常规的可观察类不同,LiveData具有生命周期感知能力,意指它遵循其他应用组件(如activity、fragment或service)的生命周期。这种感知能力可确保LiveData仅更新处于活跃生命周期状态的应用组件观察者。如果观察者(由Observer类表示)的生命周期

变量和配置文件

文章目录变量和配置文件1.变量1.1系统变量1.1.1系统变量分类1.1.2查看系统变量1.1.3修改系统变量的值1.2用户变量2.配置文件的使用2.1配置文件格式2.2启动命令与选项组2.3特定的MYSQL版本的专用选项组2.4同一个配置文件中多个组的优先级2.5命令行和配置文件中启动选项的区别变量和配置文件1.变量

热文推荐