聊一聊用 Dotnet-Trace 调查 Lock锁竞争

2025-05-27 0 31

一:背景

1. 讲故事

最近在分析一个 linux 上的 dump,最后的诱因是大量的lock锁诱发的高频上下文切换,虽然问题告一段落,但我还想知道一点信息,所谓的高频到底有多高频?锁竞争到底是一个怎样的锁竞争?如果了解这些信息对我们后续分析此类问题非常有帮助。

要想获取此类信息,看 dump 肯定是没有用的,只能给程序安装一个摄像头,在 Windows 平台上可以在 perfview 上配一个Microsoft-Windows-DotNETRuntime:ContentionKeyword事件轻松搞定,截图如下:

聊一聊用 Dotnet-Trace 调查 Lock锁竞争

但 PerfView 是和 Windows 深度绑定的,那在 Linux 上怎么办呢?对,有朋友知道用 dotnet-trace。

二:探究 dotnet-trace

1. 如何监控 lock 竞争

dotnet-trace是 CLR 团队写的一个跨平台的小工具,专门用于获取 .NET 程序的各种事件,可以理解成 PerfView 的一个子集,这里安装就不说了,详见官方文档:https://learn.microsoft.com/en-us/dotnet/core/diagnostics/dotnet-trace

查阅文档之后,只需要在–clrevents中配contention事件即可,详情参见文档:https://learn.microsoft.com/en-us/dotnet/fundamentals/diagnostics/runtime-contention-events

聊一聊用 Dotnet-Trace 调查 Lock锁竞争

2. 测试案例

为了方便解读,这里我故意造一个锁护送现象,参考代码如下:

internal class Program
    {
        public static object lockMe = new object();

        static void Main(string[] args)
        {
            long i = 10;

            Parallel.For(0, int.MaxValue, new ParallelOptions() { MaxDegreeOfParallelism = 4 }, (j) =>
            {
                lock (lockMe) i++; lock (lockMe) i++; lock (lockMe) i++; lock (lockMe) i++;
                lock (lockMe) i++; lock (lockMe) i++; lock (lockMe) i++; lock (lockMe) i++;
                lock (lockMe) i++; lock (lockMe) i++; lock (lockMe) i++; lock (lockMe) i++;
                lock (lockMe) i++; lock (lockMe) i++; lock (lockMe) i++; lock (lockMe) i++;
                lock (lockMe) i++; lock (lockMe) i++; lock (lockMe) i++; lock (lockMe) i++;
                lock (lockMe) i++; lock (lockMe) i++; lock (lockMe) i++; lock (lockMe) i++;
                lock (lockMe) i++; lock (lockMe) i++; lock (lockMe) i++; lock (lockMe) i++;
                lock (lockMe) i++; lock (lockMe) i++; lock (lockMe) i++; lock (lockMe) i++;
                lock (lockMe) i++; lock (lockMe) i++; lock (lockMe) i++; lock (lockMe) i++;
                lock (lockMe) i++; lock (lockMe) i++; lock (lockMe) i++; lock (lockMe) i++;
                lock (lockMe) i++; lock (lockMe) i++; lock (lockMe) i++; lock (lockMe) i++;
                lock (lockMe) i++; lock (lockMe) i++; lock (lockMe) i++; lock (lockMe) i++;
                lock (lockMe) i++; lock (lockMe) i++; lock (lockMe) i++; lock (lockMe) i++;
                lock (lockMe) i++; lock (lockMe) i++; lock (lockMe) i++; lock (lockMe) i++;
                lock (lockMe) i++; lock (lockMe) i++; lock (lockMe) i++; lock (lockMe) i++;
                lock (lockMe) i++; lock (lockMe) i++; lock (lockMe) i++; lock (lockMe) i++;
                lock (lockMe) i++; lock (lockMe) i++; lock (lockMe) i++; lock (lockMe) i++;
                lock (lockMe) i++; lock (lockMe) i++; lock (lockMe) i++; lock (lockMe) i++;
                lock (lockMe) i++; lock (lockMe) i++; lock (lockMe) i++; lock (lockMe) i++;
                lock (lockMe) i++; lock (lockMe) i++; lock (lockMe) i++; lock (lockMe) i++;
            });
        }
    }

将程序跑起来后,使用dotnet-trace ps找到 PID,再用dotnet-trace进行跟踪,这里持续跟踪 1分钟。

[root@localhost ~]# dotnet-trace ps
 3316  dotnet  /usr/share/dotnet/dotnet  dotnet ConsoleApp3.dll  

[root@localhost ~]# dotnet-trace collect -p 3316 --clrevents contention --duration 00:00:01:00

Provider Name                           Keywords            Level               Enabled By
Microsoft-Windows-DotNETRuntime         0x0000000000004000  Informational(4)    --clrevents

Process        : /usr/share/dotnet/dotnet
Output File    : /root/dotnet_20230509_105906.nettrace
Trace Duration : 00:00:01:00
[00:00:01:00] Recording trace 29.7885  (MB)
Press <Enter> or <Ctrl+C> to exit...148  (MB)
Stopping the trace. This may take several minutes depending on the application being traced.

Trace completed.

[root@localhost ~]# ls

anaconda-ks.cfg  dotnet_20230509_105906.nettrace  Music     Templates
Desktop          Downloads                        Pictures  Videos
Documents        initial-setup-ks.cfg             Public

3. nettrace 文件分析

至于分析dotnet_20230509_105906.nettrace的工具就特别多了,dotnet-trace,perf,perfview,visualstudio,不过我个人建议还是使用prefview,因为它的洞察能力会更好,用 perfview 打开之后点击EventStats观察统计信息:

聊一聊用 Dotnet-Trace 调查 Lock锁竞争

从图中可以看到 1min 的时间内生成了总计将近200w的 start 和 stop 事件。

有了统计信息还不行,我还想知道每一次 start 的详细信息,可以点击 perfview 中的Events面板中的Microsoft-Windows-DotNETRuntime/Contention/Start事件,可以看到记录中每一次争抢的开始时间。

聊一聊用 Dotnet-Trace 调查 Lock锁竞争

有些朋友可能要问了,Start 和 Stop 到底代表什么意思,简而言之就是争抢的开始时间和结束时间,时间差就是排队时间,截图如下:

聊一聊用 Dotnet-Trace 调查 Lock锁竞争

从图中可以看到,某些竞争锁的时候耗费了 1ms 的时间,同时得到调度的线程也不是串行的,比如4232号线程就得到了两次连续执行。

接下来回答最后一个问题,除了看到每一次lock竞争的详细信息,能不能看到每一次 lock 时的代码调用栈呢?当然是可以的,毕竟HasStack=\”True\” ThreadID=\”3,316\” ProcessorNumber=\”0\” Cnotallow=\”Managed\” ClrInstanceID=\”0\”中的HasStack=\”True\”就是告诉当前是有调用栈信息的,在Time MSec列点击右键选择Open Any Stacks。

聊一聊用 Dotnet-Trace 调查 Lock锁竞争

从图中的线程栈可以看到,Start 事件是由Main方法中的Parallel.For诱发的,非常清楚。

三:总结

dotnet-trace 是一个非常强大的跨平台性能分析工具,构建在EventPipe之上,特点就是跨平台,除了对锁竞争外,还有其他的各种有趣的事件,有兴趣的朋友可以查阅查阅。

收藏 (0) 打赏

感谢您的支持,我会继续努力的!

打开微信/支付宝扫一扫,即可进行扫码打赏哦,分享从这里开始,精彩与您同在
点赞 (0)

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。

快网idc优惠网 建站教程 聊一聊用 Dotnet-Trace 调查 Lock锁竞争 https://www.kuaiidc.com/59403.html

相关文章

发表评论
暂无评论