bpftrace 是一个基于 eBPF 的新型追踪工具,在 Fedora 28 第一次引入。Brendan Gregg、Alastair Robertson 和 Matheus Marchini 在网上的一个松散的黑客团队的帮助下开发了 bpftrace。它是一个允许你分析系统在幕后正在执行的操作的追踪工具,可以告诉你代码中正在被调用的函数、传递给函数的参数、函数的调用次数等。
这篇文章的内容涉及了 bpftrace 的一些基础,以及它是如何工作的,请继续阅读获取更多的信息和一些有用的实例。
eBPF(扩展的伯克利数据包过滤器)
eBPF是一个微型虚拟机,更确切的说是一个位于 Linux 内核中的虚拟 CPU。eBPF 可以在内核空间以一种安全可控的方式加载和运行小型程序,使得 eBPF 的使用更加安全,即使在生产环境系统中。eBPF 虚拟机有自己的指令集架构(ISA),类似于现代处理器架构的一个子集。通过这个 ISA,可以很容易将 eBPF 程序转化为真实硬件上的代码。内核即时将程序转化为主流处理器架构上的本地代码,从而提升性能。
eBPF 虚拟机允许通过编程扩展内核,目前已经有一些内核子系统使用这一新型强大的 Linux 内核功能,比如网络、安全计算、追踪等。这些子系统的主要思想是添加 eBPF 程序到特定的代码点,从而扩展原生的内核行为。
虽然 eBPF 机器语言功能强大,由于是一种底层语言,直接用于编写代码很费力,bpftrace 就是为了解决这个问题而生的。eBPF 提供了一种编写 eBPF 追踪脚本的高级语言,然后在 clang / LLVM 库的帮助下将这些脚本转化为 eBPF,最终添加到特定的代码点。
安装和快速入门
在终端使用sudo执行下面的命令安装 bpftrace:
-
$ sudo dnf install bpftrace
使用“hello world”进行实验:
-
$ sudo bpftrace -e 'BEGIN { printf("hello world\\n"); }'
注意,出于特权级的需要,你必须使用 root 运行bpftrace,使用-e选项指明一个程序,构建一个所谓的“单行程序”。这个例子只会打印 “hello world”,接着等待你按下Ctrl+C。
BEGIN是一个特殊的探针名,只在执行一开始生效一次;每次探针命中时,大括号{}内的操作(这个例子中只是一个printf)都会执行。
现在让我们转向一个更有用的例子:
-
$ sudo bpftrace -e 't:syscalls:sys_enter_execve { printf("%s called %s\\n", comm, str(args->filename)); }'
这个例子打印了父进程的名字(comm)和系统中正在创建的每个新进程的名称。t:syscalls:sys_enter_execve是一个内核追踪点,是tracepoint:syscalls:sys_enter_execve的简写,两种形式都可以使用。下一部分会向你展示如何列出所有可用的追踪点。
comm是一个 bpftrace 内建指令,代表进程名;filename是t:syscalls:sys_enter_execve追踪点的一个字段,这些字段可以通过args内建指令访问。
追踪点的所有可用字段可以通过这个命令列出:
-
bpftrace -lv "t:syscalls:sys_enter_execve"
示例用法
列出探针
bpftrace的一个核心概念是探针点,即 eBPF 程序可以连接到的(内核或用户空间的)代码中的测量点,可以分成以下几大类:
-
kprobe——内核函数的开始处 -
kretprobe——内核函数的返回处 -
uprobe——用户级函数的开始处 -
uretprobe——用户级函数的返回处 -
tracepoint——内核静态追踪点 -
usdt——用户级静态追踪点 -
profile——基于时间的采样 -
interval——基于时间的输出 -
software——内核软件事件 -
hardware——处理器级事件
所有可用的kprobe/kretprobe、tracepoints、software和hardware探针可以通过这个命令列出:
-
$ sudo bpftrace -l
uprobe/uretprobe和usdt是用户空间探针,专用于某个可执行文件。要使用这些探针,通过下文中的特殊语法。
profile和interval探针以固定的时间间隔触发;固定的时间间隔不在本文的范畴内。
统计系统调用数
映射是保存计数、统计数据和柱状图的特殊 BPF 数据类型,你可以使用映射统计每个系统调用正在被调用的次数:
-
$ sudo bpftrace -e 't:syscalls:sys_enter_* { @[probe] = count(); }'
一些探针类型允许使用通配符匹配多个探针,你也可以使用一个逗号隔开的列表为一个操作块指明多个连接点。上面的例子中,操作块连接到了所有名称以t:syscalls:sysenter_开头的追踪点,即所有可用的系统调用。
bpftrace的内建函数count()统计系统调用被调用的次数;@[]代表一个映射(一个关联数组)。该映射的键probe是另一个内建指令,代表完整的探针名。
这个例子中,相同的操作块连接到了每个系统调用,之后每次有系统调用被调用时,映射就会被更新,映射中和系统调用对应的项就会增加。程序终止时,自动打印出所有声明的映射。
下面的例子统计所有的系统调用,然后通过bpftrace过滤语法使用 PID 过滤出某个特定进程调用的系统调用:
-
$ sudo bpftrace -e 't:syscalls:sys_enter_* / pid == 1234 / { @[probe] = count(); }'
进程写的字节数
让我们使用上面的概念分析每个进程正在写的字节数:
-
$ sudo bpftrace -e 't:syscalls:sys_exit_write /args->ret > 0/ { @[comm] = sum(args->ret); }'
bpftrace连接操作块到写系统调用的返回探针(t:syscalls:sys_exit_write),然后使用过滤器丢掉代表错误代码的负值(/arg->ret > 0/)。
映射的键comm代表调用系统调用的进程名;内建函数sum()累计每个映射项或进程写的字节数;args是一个bpftrace内建指令,用于访问追踪点的参数和返回值。如果执行成功,write系统调用返回写的字节数,arg->ret用于访问这个字节数。
进程的读取大小分布(柱状图):
bpftrace支持创建柱状图。让我们分析一个创建进程的read大小分布的柱状图的例子:
-
$ sudo bpftrace -e 't:syscalls:sys_exit_read { @[comm] = hist(args->ret); }'
柱状图是 BPF 映射,因此必须保存为一个映射(@),这个例子中映射键是comm。
这个例子使bpftrace给每个调用read系统调用的进程生成一个柱状图。要生成一个全局柱状图,直接保存hist()函数到@(不使用任何键)。
程序终止时,bpftrace自动打印出声明的柱状图。创建柱状图的基准值是通过args->ret获取到的读取的字节数。
追踪用户空间程序
你也可以通过uprobes/uretprobes和 USDT(用户级静态定义的追踪)追踪用户空间程序。下一个例子使用探测用户级函数结尾处的uretprobe,获取系统中运行的每个bash发出的命令行:
-
$ sudo bpftrace -e 'uretprobe:/bin/bash:readline { printf("readline: \\"%s\\"\\n", str(retval)); }'
要列出可执行文件bash的所有可用uprobes/uretprobes, 执行这个命令:
-
$ sudo bpftrace -l "uprobe:/bin/bash"
uprobe指向用户级函数执行的开始,uretprobe指向执行的结束(返回处);readline()是/bin/bash的一个函数,返回键入的命令行;retval是被探测的指令的返回值,只能在uretprobe访问。
使用uprobes时,你可以用arg0..argN访问参数。需要调用str()将char *指针转化成一个字符串。
自带脚本
bpftrace软件包附带了许多有用的脚本,可以在/usr/share/bpftrace/tools/目录找到。
这些脚本中,你可以找到:
-
killsnoop.bt——追踪kill()系统调用发出的信号 -
tcpconnect.bt——追踪所有的 TCP 网络连接 -
pidpersec.bt——统计每秒钟(通过fork)创建的新进程 -
opensnoop.bt——追踪open()系统调用 -
bfsstat.bt——追踪一些 VFS 调用,按秒统计
你可以直接使用这些脚本,比如:
-
$ sudo /usr/share/bpftrace/tools/killsnoop.bt
你也可以在创建新的工具时参考这些脚本。
链接
- bpftrace 参考指南——https://github.com/iovisor/bpftrace/blob/master/docs/reference_guide.md
-
Linux 2018
bpftrace(DTrace 2.0)——http://www.brendangregg.com/blog/2018-10-08/dtrace-for-linux-2018.html - BPF:通用的内核虚拟机——https://lwn.net/Articles/599755/
- Linux Extended BPF(eBPF)Tracing Tools——http://www.brendangregg.com/ebpf.html
- 深入 BPF:一个阅读材料列表——https://qmonnet.github.io/whirl-offload/2016/09/01/dive-into-bpf
原文链接:https://linux.cn/article-13632-1.html


