[译] Linux Socket Filtering (LSF, aka BPF)(KernelDoc,2021)
译者序
本文翻译自 2021 年 Linux 5.10
内核文档: Linux Socket Filtering aka Berkeley Packet Filter (BPF)
,
文档源码见 Documentation/networking/filter.rst
。
Linux Socket Filtering (LSF) 是最初将 BSD 系统上的 数据包过滤技术 BPF(伯克利包过滤器)移植到 Linux 系统时使用的名称,但后来大家还是更多称呼其为 BPF。本文介绍了 Linux BPF 的一些 底层设计和实现 (包括 cBPF 和 eBPF),可作为 Cilium:BPF 和 XDP 参考指南(2021) 的很好补充,这两篇可能是目前除了内核源码之外,学习 BPF 的最全/最好参考。 本文适合有一定 BPF 经验的开发者阅读,不适合初学者。
由于内核文档更新不是非常及时,文中部分内容已经与 5.10 代码对不上,因此(少量) 过时内容在翻译时略去了。另外,为文中的大部分 BPF 汇编 / x86_64 汇编加了注释, 并插入了一些 5.10 代码片段或链接,方便更深入理解。
由于译者水平有限,本文不免存在遗漏或错误之处。如有疑问,请查阅原文。
以下是译文。
- ————————————————————————
- ————————————————————————
-
- 1.1 LSF (cBPF) 与 BSD BPF
-
1.2
ATTACH
/DETACH
/LOCK
给定过滤器
-
-
2.1
struct sock_filter
-
2.2
struct sock_fprog
-
2.1
-
3 cBPF 示例:
libpcap
过滤 socket 流量-
3.1
setsockopt()
将字节码 attach 到 socket -
3.2
setsockopt()
attach/detach/lock 时的参数 - 3.3 libpcap 适用和不适用的场景
-
3.1
-
-
4.1
bpf_asm
:最小 BPF 汇编器(assembler) - 4.3 bpf_asm 实现的指令集
- 4.4 12 种指令寻址模式
- 4.5 Linux BPF extensions(Linux BPF 扩展)
- 4.6 cBPF 汇编示例若干(附代码解读)
-
4.7 用
bps_asm
编译成字节码
-
4.1
-
-
5.1 内核配置项:
bpf_jit_enable
-
5.2 工具:
bpf_jit_disasm
-
5.1 内核配置项:
- ————————————————————————
- ————————————————————————
-
6 BPF kernel internals(eBPF)
- 6.2 cBPF->eBPF 自动转换
-
6.3 eBPF 相比 cBPF 的核心变化
- 6.3.1 寄存器数量从 2 个增加到 10 个
- 6.3.2 寄存器位宽从 32bit 扩展到 64bit
-
6.3.3 条件跳转:
jt/fall-through
取代jt/jf
-
6.3.4 引入
bpf_call
指令和寄存器传参约定,实现零(额外)开销内核函数调用- 原理:JIT 实现零(额外)开销内核函数调用
- 示例解析(一):eBPF/C 函数混合调用,JIT 生成的 x86_64 指令
- eBPF 寄存器到 x86_64 硬件寄存器一一映射关系
- 示例解析(二):C 调 eBPF 代码编译成 x86_64 汇编后的样子
- 6.4 eBPF 程序最大指令数限制
- 6.5 eBPF 程序上下文(ctx)参数
- 6.6 cBPF -> eBPF 转换若干问题
-
7 eBPF 字节码编码(opcode encoding)
-
- BPF_ALU 和 BPF_JMP 的 operand
- BPF_ALU 和 BPF_ALU64 (eBPF) 的 opcode
- BPF_JMP 和 BPF_JMP32 (eBPF) 的 opcode
- BPF_MISC 与 BPF_ALU64(eBPF 64bit 寄存器加法操作)
- cBPF/eBPF BPF_RET 指令的不同
- BPF_JMP 与 eBPF BPF_JMP32
-
7.2 加载指令(load/store)
- 两个 eBPF non-generic 指令:BPF_ABS 和 BPF_IND,用于访问 skb data
- 通用 eBPF load/store 指令
- 加载 64bit 立即数的 eBPF 指令
-
- 8 eBPF 校验器(eBPF verifier)
-
9 寄存器值跟踪(register value tracking)
- 9.2 指针偏移(offset)触发寄存器状态更新
- 9.3 条件分支触发寄存器状态更新
- 9.4 有符号比较触发寄存器状态更新
-
9.5
struct bpf_reg_state
的id
字段
- 10 直接数据包访问(direct packet access)
-
13 理解 eBPF 校验器提示信息
- 13.1 程序包含无法执行到的指令
- 13.2 程序读取未初始化的寄存器
- 13.3 程序退出前未设置 R0 寄存器
- 13.4 程序访问超出栈空间
- 13.5 未初始化栈内元素,就传递该栈地址
-
13.6 程序执行
map_lookup_elem()
传递了非法的map_fd
-
13.7 程序未检查
map_lookup_elem()
的返回值是否为空就开始使用 - 13.8 程序访问 map 内容时使用了错误的字节对齐
- 13.9 程序在 fallthrough 分支中使用了错误的字节对齐访问 map 数据
-
13.10 程序执行
sk_lookup_tcp()
,未检查返回值就直接将其置 NULL -
13.11 程序执行
sk_lookup_tcp()
但未检查返回值是否为空
SPDX-License-Identifier: GPL-2.0
————————————————————————
cBPF 相关内容
————————————————————————
1 cBPF 引言
Linux Socket Filtering (LSF) 从 Berkeley Packet Filter(BPF) 衍生而来 。 虽然 BSD 和 Linux Kernel filtering 有一些重要不同,但 在 Linux 语境中提到 BPF 或 LSF 时 , 我们指的是 Linux 内核中的同一套 过滤机制 。
1.1 LSF (cBPF) 与 BSD BPF
BPF 允许用户空间程序 向任意 socket attach 过滤器(filter) , 以此 对流经 socket 的数据进行控制 (放行或拒绝)。 LSF 完全遵循了 BSD BPF 的过滤代码结构(filter code structure),因此实现过滤器 (filters)时,BSD bpf.4 manpage 是很好的参考文档。
但 Linux BPF 要比 BSD BPF 简单很多:
SO_ATTACH_FILTER
1.2 ATTACH
/ DETACH
/ LOCK
给定过滤器
-
SO_ATTACH_FILTER
用于将 filter attach 到 socket。 -
SO_DETACH_FILTER
用于从 socket 中 detach 过滤器。但这种情况可能比较少,因为关闭一个 socket 时,attach 在上面的所有 filters 会被 自动删除 。 另一个不太常见的场景是:向一个已经有 filter 的 socket 再 attach 一个 filter: 内核负责将老的移除,替换成新的 —— 只要新的过滤器通过了校验,否则还是老的在工作。
-
SO_LOCK_FILTER
选项支持将 attach 到 socket 上的 filter 锁定 。 一旦锁定之后,这个过滤器就 不能被删除或修改 了。这样就能保证下列操作之后:- 进程创建 socket
- attach filter
- 锁定 filter
- drop privileges
这个 filter 就会一直运行在该 socket 上,直到后者被关闭。
1.3 LSF/BPF 使用场景
BPF 模块的
最大用户
可能就是 libpcap
。例如,对于高层过滤命令 tcpdump -i em1 port 22
,
-
libpcap 编译器
能将其编译生成一个 cBPF 程序,然后通过前面介绍的
SO_ATTACH_FILTER
就能加载到内核; -
加
-ddd
参数,可以 dump 这条命令对应的字节码 :tcpdump -i em1 port 22 -ddd
。
虽然我们这里讨论的都是 socket,但 Linux 中 BPF 还可用于很多其他场景 。例如
-
netfilter 中的
xt_bpf
-
内核 qdisc 层的
cls_bpf
- SECCOMP-BPF ( SECure COMPuting )
- 其他很多地方,包括 team driver、PTP。
1.4 cBPF 经典论文
最初的 BPF 论文:
Steven McCanne and Van Jacobson. 1993. The BSD packet filter: a new architecture for user-level packet capture . In Proceedings of the USENIX Winter 1993 Conference Proceedings on USENIX Winter 1993 Conference Proceedings (USENIX’93). USENIX Association, Berkeley, CA, USA, 2-2. [http://www.tcpdump.org/papers/bpf-usenix93.pdf]
2 cBPF 数据结构
2.1 struct sock_filter
要开发 cBPF 应用,用户空间程序需要 include <linux/filter.h>
,其中定义了下面的结构体:
struct sock_filter { /* Filter block */ __u16 code; /* Actual filter code */ __u8 jt; /* Jump true */ __u8 jf; /* Jump false */ __u32 k; /* Generic multiuse field */ };
这个结构体包含 code
jt
jf
k
四个字段。 jt
和 jf
是 jump offset, k
是一个 code
可以使用的通用字段。
2.2 struct sock_fprog
要实现 socket filtering,需要通过 setsockopt(2)
将一个 struct sock_fprog
指针传递给内核(后面有例子)。
这个结构体的定义:
struct sock_fprog { /* Required for SO_ATTACH_FILTER. */ unsigned short len; /* Number of filter blocks */ struct sock_filter __user *filter; };
3 cBPF 示例: libpcap
过滤 socket 流量
3.1 setsockopt()
将字节码 attach 到 socket
里面用到的两个结构体 struct sock_filter
和 struct sock_fprog
在前一节介绍过了:
#include <sys/socket.h> #include <sys/types.h> #include <arpa/inet.h> #include <linux/if_ether.h> /* ... */ /* From the example above: tcpdump -i em1 port 22 -dd */ struct sock_filter code[] = { { 0x28, 0, 0, 0x0000000c }, { 0x15, 0, 8, 0x000086dd }, { 0x30, 0, 0, 0x00000014 }, { 0x15, 2, 0, 0x00000084 }, { 0x15, 1, 0, 0x00000006 }, { 0x15, 0, 17, 0x00000011 }, { 0x28, 0, 0, 0x00000036 }, { 0x15, 14, 0, 0x00000016 }, { 0x28, 0, 0, 0x00000038 }, { 0x15, 12, 13, 0x00000016 }, { 0x15, 0, 12, 0x00000800 }, { 0x30, 0, 0, 0x00000017 }, { 0x15, 2, 0, 0x00000084 }, { 0x15, 1, 0, 0x00000006 }, { 0x15, 0, 8, 0x00000011 }, { 0x28, 0, 0, 0x00000014 }, { 0x45, 6, 0, 0x00001fff }, { 0xb1, 0, 0, 0x0000000e }, { 0x48, 0, 0, 0x0000000e }, { 0x15, 2, 0, 0x00000016 }, { 0x48, 0, 0, 0x00000010 }, { 0x15, 0, 1, 0x00000016 }, { 0x06, 0, 0, 0x0000ffff }, { 0x06, 0, 0, 0x00000000 }, }; struct sock_fprog bpf = { .len = ARRAY_SIZE(code), .filter = code, }; sock = socket(PF_PACKET, SOCK_RAW, htons(ETH_P_ALL)); if (sock < 0) /* ... bail out ... */ ret = setsockopt(sock, SOL_SOCKET, SO_ATTACH_FILTER, &bpf, sizeof(bpf)); if (ret < 0) /* ... bail out ... */ /* ... */ close(sock);
以上代码将一个 filter attach 到了一个 PF_PACKET
类型的 socket,filter 的功能是
放行所有 IPv4/IPv6 22 端口的包,其他包一律丢弃
。
以上只展示了 attach 代码;detach 时, setsockopt(2)
除了 SO_DETACH_FILTER
不需要其他参数; SO_LOCK_FILTER
可用于防止 filter 被 detach,需要带一个整形参数 0 或 1。
注意 socket filters 并不是只能用于 PF_PACKET 类型的 socket,也可以用于其他 socket 家族。
3.2 setsockopt()
attach/detach/lock 时的参数
总结前面用到的几次系统调用:
-
setsockopt(sockfd, SOL_SOCKET, SO_ATTACH_FILTER, &val, sizeof(val));
-
setsockopt(sockfd, SOL_SOCKET, SO_DETACH_FILTER, &val, sizeof(val));
-
setsockopt(sockfd, SOL_SOCKET, SO_LOCK_FILTER, &val, sizeof(val));
3.3 libpcap 适用和不适用的场景
lipcap 高层语法 封装了上面代码中看到的那些底层操作, 功能已经 覆盖了大部分 socket filtering 的场景 , 因此如果想开发流量过滤应用,开发者应该首选基于 libpcap。
除非遇到以下情况 ,否则不要纯手工编写过滤器:
- 开发环境比较特殊,无法使用或链接 libpcap;
- 使用的 filter 需要用到 libpcap 编译器还没有支持的 Linux extensions;
- 开发的 filter 比较复杂,libpcap 编译器无法很好地支持该 filter;
- 需要对特定的 filter 代码做优化,而不想使用 libpcap 编译器生成的代码;
libpcap 不适用的场景举例:
- xt_bpf 和 cls_bpf 用户 可能需要更加复杂的 filter 代码, libpcap 无法很好地表达。
- BPF JIT 开发者可能希望 手写测试用例 ,因此也需要直接编写或修改 BPF 代码。
4 cBPF 引擎和指令集
4.1 bpf_asm
:最小 BPF 汇编器(assembler)
内核 tools/bpf/
目录下有个小工具 bpf_asm
,能用它来
编写 low-level filters
,
例如前面提到的一些 libpcap 不适用的场景。
BPF 语法类似汇编,在 bpf_asm 已经中实现了,接下来还会用这种汇编解释其他一些程序 (而不是直接使用难懂的 opcodes,二者的原理是一样的)。这种汇编语法非常接近 Steven McCanne’s and Van Jacobson’s BPF paper 中的建模。
4.2 cBPF 架构
cBPF 架构由如下几个基本部分组成:
======= ==================================================== Element Description ======= ==================================================== A 32 bit wide accumulator(32bit 位宽的累加器) X 32 bit wide X register (32bit 位宽 X 寄存器) M[] 16 x 32 bit wide misc registers aka "scratch memory store", addressable from 0 to 15 (16x32bit 数组,数组索引 0~15,可存放任意内容) ======= ====================================================
BPF 程序经过 bpf_asm 处理之后
变成一个 struct sock_filter
类型的数组
(这个结构体前面介绍过),因此数组中的每个元素都是
以如下格式编码
的:
op:16, jt:8, jf:8, k:32
-
op
:16bit opcode,其中包括了特定的指令; -
jt
:jump if true -
jf
:jump if false -
k
:多功能字段, 存放的什么内容,根据 op 类型来解释 。
4.3 bpf_asm 实现的指令集
指令集包括 load、store、branch、alu、return 等指令,bpf_asm 语言中
实现了这些指令
。
下面的表格列出了 bpf_asm 中具体包括的指令,对应的 opcode 定义在 linux/filter.h
:
=========== =================== ===================== 指令 寻址模式 解释 =========== =================== ===================== ld 1, 2, 3, 4, 12 Load word into A ldi 4 Load word into A ldh 1, 2 Load half-word into A ldb 1, 2 Load byte into A ldx 3, 4, 5, 12 Load word into X ldxi 4 Load word into X ldxb 5 Load byte into X st 3 Store A into M[] stx 3 Store X into M[] jmp 6 Jump to label ja 6 Jump to label jeq 7, 8, 9, 10 Jump on A == <x> jneq 9, 10 Jump on A != <x> jne 9, 10 Jump on A != <x> jlt 9, 10 Jump on A < <x> jle 9, 10 Jump on A <= <x> jgt 7, 8, 9, 10 Jump on A > <x> jge 7, 8, 9, 10 Jump on A >= <x> jset 7, 8, 9, 10 Jump on A & <x> add 0, 4 A + <x> sub 0, 4 A - <x> mul 0, 4 A * <x> div 0, 4 A / <x> mod 0, 4 A % <x> neg !A and 0, 4 A & <x> or 0, 4 A | <x> xor 0, 4 A ^ <x> lsh 0, 4 A << <x> rsh 0, 4 A >> <x> tax Copy A into X txa Copy X into A ret 4, 11 Return =========== =================== =====================
其中第二列是寻找模式,定义见下面。
4.4 12 种指令寻址模式
寻址模式的定义如下:
=============== =================== =============================================== 寻址模式 语法 解释 =============== =================== =============================================== 0 x/%x Register X 1 [k] BHW at byte offset k in the packet 2 [x + k] BHW at the offset X + k in the packet 3 M[k] Word at offset k in M[] 4 #k Literal value stored in k 5 4*([k]&0xf) Lower nibble * 4 at byte offset k in the packet 6 L Jump label L 7 #k,Lt,Lf Jump to Lt if true, otherwise jump to Lf 8 x/%x,Lt,Lf Jump to Lt if true, otherwise jump to Lf 9 #k,Lt Jump to Lt if predicate is true 10 x/%x,Lt Jump to Lt if predicate is true 11 a/%a Accumulator A 12 extension BPF extension =============== =================== ===============================================
注意最后一种: BPF extensions
,这是 Linux 对 BPF 的扩展,下一节详细介绍。
4.5 Linux BPF extensions(Linux BPF 扩展)
除了常规的一些 load 指令,Linux 内核还有一些 BPF extensions,它们用一个 负 offset 加上一个特殊的 extension offset 来 “overloading” k 字段 , 然后将这个 结果加载到寄存器 A 中 :
=================================== ================================================= Extension 描述(实际对应的结构体字段或值) =================================== ================================================= len skb->len proto skb->protocol type skb->pkt_type poff Payload start offset ifidx skb->dev->ifindex nla Netlink attribute of type X with offset A nlan Nested Netlink attribute of type X with offset A mark skb->mark queue skb->queue_mapping hatype skb->dev->type rxhash skb->hash cpu raw_smp_processor_id() vlan_tci skb_vlan_tag_get(skb) vlan_avail skb_vlan_tag_present(skb) vlan_tpid skb->vlan_proto rand prandom_u32() =================================== =================================================
这些扩展也可以加上 #
前缀。
以上提到的负 offset 和具体 extension 的 offset,定义见 include/uapi/linux/filter.h :
/* RATIONALE. Negative offsets are invalid in BPF. We use them to reference ancillary data. Unlike introduction new instructions, it does not break existing compilers/optimizers. */ #define SKF_AD_OFF (-0x1000) #define SKF_AD_PROTOCOL 0 #define SKF_AD_PKTTYPE 4 #define SKF_AD_IFINDEX 8 #define SKF_AD_NLATTR 12 #define SKF_AD_NLATTR_NEST 16 #define SKF_AD_MARK 20 #define SKF_AD_QUEUE 24 #define SKF_AD_HATYPE 28 #define SKF_AD_RXHASH 32 #define SKF_AD_CPU 36 #define SKF_AD_ALU_XOR_X 40 #define SKF_AD_VLAN_TAG 44 #define SKF_AD_VLAN_TAG_PRESENT 48 #define SKF_AD_PAY_OFFSET 52 #define SKF_AD_RANDOM 56 #define SKF_AD_VLAN_TPID 60 #define SKF_AD_MAX 64 #define SKF_NET_OFF (-0x100000) #define SKF_LL_OFF (-0x200000) #define BPF_NET_OFF SKF_NET_OFF #define BPF_LL_OFF SKF_LL_OFF
在 kernel/bpf/core.c 等地方使用:
/* No hurry in this branch * * Exported for the bpf jit load helper. */ void *bpf_internal_load_pointer_neg_helper(const struct sk_buff *skb, int k, unsigned int size) { u8 *ptr = NULL; if (k >= SKF_NET_OFF) ptr = skb_network_header(skb) + k - SKF_NET_OFF; else if (k >= SKF_LL_OFF) ptr = skb_mac_header(skb) + k - SKF_LL_OFF; if (ptr >= skb->head && ptr + size <= skb_tail_pointer(skb)) return ptr; return NULL; }
Cilium:BPF 和 XDP 参考指南(2021) 中对此亦有提及。
译注。
4.6 cBPF 汇编示例若干(附代码解读)
过滤 ARP 包:
ldh [12] ; 将 skb 第 12,13 两个字节(h 表示 half word,两个字节,即 skb->protocol 字段)加载到寄存器 A jne #0x806, drop ; 如果寄存器 A 中的值不等于 0x0806(ARP 协议),则跳转到 drop ret #-1 ; (能执行到这一行,说明是 ARP 包),返回 -1 drop: ret #0 ; 返回 0
过滤 IPv4 TCP 包:
ldh [12] ; 将 skb 第 12,13 两个字节(h 表示 half word,两个字节,即 skb->protocol 字段)加载到寄存器 A jne #0x800, drop ; 如果寄存器 A 中的值不等于 0x0800(IPv4 协议),则跳转到 drop ldb [23] ; 将 skb 第 23 字节(b 表示 byte,一个字节,即 ipv4_hdr->protocol 字段)加载到寄存器 A jneq #6, drop ; 如果寄存器 A 中的值不等于 6(TCP 协议),则跳转到 drop ret #-1 ; (能执行到这一行,说明是 TCP 包),返回 -1 drop: ret #0 ; 返回 0
过滤 VLAN ID 等于 10 的包:
ld vlan_tci ; 根据前面介绍的 BPF extensions,这会转换成 skb_vlan_tag_get(skb) jneq #10, drop ; 如果寄存器 A 中的值不等于 10,则跳转到 drop ret #-1 ; (能执行到这一行说明 VLAN ID 等于 10),返回 -1 drop: ret #0 ; 返回 0
对 ICMP 包随机采集,采样频率 1/4:
ldh [12] ; 将 skb 第 12,13 两个字节(h 表示 half word,两个字节,即 skb->protocol 字段)加载到寄存器 A jne #0x800, drop ; 如果寄存器 A 中的值不等于 0x0800(IPv4 协议),则跳转到 drop ldb [23] ; 将 skb 第 23 字节(b 表示 byte,一个字节,即 ipv4_hdr->protocol 字段)加载到寄存器 A jneq #1, drop ; 如果寄存器 A 中的值不等于 1(ICMP 协议),则跳转到 drop ld rand ; 获取一个 u32 类型的随机数,存入寄存器 A mod #4 ; 将寄存器 A 中的值原地对 4 取模(结果仍然存入 A) jneq #1, drop ; 如果 A 中的值(即取模的结果)不等于 1,跳转到 drop ret #-1 ; (能执行到这里说明对 4 取模等于 1),返回 -1 drop: ret #0 ; 返回 0
SECCOMP filter example:
ld [4] /* offsetof(struct seccomp_data, arch) */ jne #0xc000003e, bad /* AUDIT_ARCH_X86_64 */ ld [0] /* offsetof(struct seccomp_data, nr) */ jeq #15, good /* __NR_rt_sigreturn */ jeq #231, good /* __NR_exit_group */ jeq #60, good /* __NR_exit */ jeq #0, good /* __NR_read */ jeq #1, good /* __NR_write */ jeq #5, good /* __NR_fstat */ jeq #9, good /* __NR_mmap */ jeq #14, good /* __NR_rt_sigprocmask */ jeq #13, good /* __NR_rt_sigaction */ jeq #35, good /* __NR_nanosleep */ bad: ret #0 /* SECCOMP_RET_KILL_THREAD */ good: ret #0x7fff0000 /* SECCOMP_RET_ALLOW */
4.7 用 bps_asm
编译成字节码
以上代码片段都可以放到文件中(下面用 foo
表示),然后用 bpf_asm 来生成 opcodes,
后者是可以被 xt_bpf 和 cls_bpf 理解的格式,能直接加载。以上面的 ARP 代码为例:
$ ./bpf_asm foo 4,40 0 0 12,21 0 1 2054,6 0 0 4294967295,6 0 0 0,
也可以输出成更容易复制粘贴的与 C 类似的格式:
$ ./bpf_asm -c foo { 0x28, 0, 0, 0x0000000c }, { 0x15, 0, 1, 0x00000806 }, { 0x06, 0, 0, 0xffffffff }, { 0x06, 0, 0, 0000000000 },
4.8 调试
xt_bpf 和 cls_bpf 场景中可能会用到非常复杂的 BPF 过滤器,不像上面的代码一眼就能看懂。 因此在将这些复杂程序(过滤器)直接 attach 到真实系统之前,最好先在线下测试一遍。
bpf_dbg
就是用于这一目的的小工具,位于内核源码 tools/bpf/
中。它可以测试
BPF filters,输入是 pcap 文件,支持单步运行、打印 BPF 虚拟机的寄存器状态等等。
# 使用默认 stdin/stdout $ ./bpf_dbg # 指定输入输出 $ ./bpf_dbg test_in.txt test_out.txt
此外,还支持:
~/.bpf_dbg_init ~/.bpf_dbg_history
load
命令
加载
bpf_asm 标准输出文件
,或
tcpdump -ddd 输出文件
(例如 tcpdump -iem1 -ddd port 22 | tr '\n' ','
的输出):
> load bpf 6,40 0 0 12,21 0 3 2048,48 0 0 23,21 0 1 1,6 0 0 65535,6 0 0 0
注意:对于 JIT debugging(后面介绍),以上命令会 创建一个临时 socket , 然后将 BPF 代码加载到内核。因此这对 JIT 开发者也有帮助。
加载标准 tcpdump pcap 文件:
> load pcap foo.pcap
run
命令
对 pcap 内的前 n 个包执行过滤器:
> run [<n>] bpf passes:1 fails:9
打印的是命中和未命中过滤规则的包数。
disassemble
命令
反汇编:
> disassemble l0: ldh [12] l1: jeq #0x800, l2, l5 l2: ldb [23] l3: jeq #0x1, l4, l5 l4: ret #0xffff l5: ret #0
dump
命令
以 C 风格打印 BPF 代码:
$ dump /* { op, jt, jf, k }, */ { 0x28, 0, 0, 0x0000000c }, { 0x15, 0, 3, 0x00000800 }, { 0x30, 0, 0, 0x00000017 }, { 0x15, 0, 1, 0x00000001 }, { 0x06, 0, 0, 0x0000ffff }, { 0x06, 0, 0, 0000000000 },
breakpoint
命令
> breakpoint 0 breakpoint at: l0: ldh [12] > breakpoint 1 breakpoint at: l1: jeq #0x800, l2, l5
run
命令
在特定指令设置断点之后,执行 run
:
> run -- register dump -- pc: [0] <-- program counter code: [40] jt[0] jf[0] k[12] <-- plain BPF code of current instruction curr: l0: ldh [12] <-- disassembly of current instruction A: [00000000][0] <-- content of A (hex, decimal) X: [00000000][0] <-- content of X (hex, decimal) M[0,15]: [00000000][0] <-- folded content of M (hex, decimal) -- packet dump -- <-- Current packet from pcap (hex) len: 42 0: 00 19 cb 55 55 a4 00 14 a4 43 78 69 08 06 00 01 16: 08 00 06 04 00 01 00 14 a4 43 78 69 0a 3b 01 26 32: 00 00 00 00 00 00 0a 3b 01 01 (breakpoint) > breakpoint # 打印断点 breakpoints: 0 1
step
命令
从当前 pc offset 开始,单步执行:
> step [-<n>, +<n>]
每执行一步,就会像 run 输出一样 dump 寄存器状态。
注意这里可以单步前进,也可以单步后退。
select
命令
选择从第 n 个包开始执行:
> select <n> # 接下来执行 run 或 step 命令
注意与 Wireshark 一样,n 是从 1 开始的。
quit
命令
> quit
退出 bpf_dbg。
5 cBPF JIT 编译器
Linux 内核内置了一个 BPF JIT 编译器,支持 x86_64、SPARC、PowerPC、ARM、ARM64、MIPS、 RISC-V 和 s390,编译内核时需要打开 CONFIG_BPF_JIT 。
5.1 内核配置项: bpf_jit_enable
启用 JIT 编译器:
$ echo 1 > /proc/sys/net/core/bpf_jit_enable
如果想每次编译过滤器时,都将生成的 opcode 镜像都 打印到内核日志中 ,可以配置:
$ echo 2 > /proc/sys/net/core/bpf_jit_enable
这对 JIT 开发者和审计来说比较有用。下面是 dmesg 的输出:
[ 3389.935842] flen=6 proglen=70 pass=3 image=ffffffffa0069c8f [ 3389.935847] JIT code: 00000000: 55 48 89 e5 48 83 ec 60 48 89 5d f8 44 8b 4f 68 [ 3389.935849] JIT code: 00000010: 44 2b 4f 6c 4c 8b 87 d8 00 00 00 be 0c 00 00 00 [ 3389.935850] JIT code: 00000020: e8 1d 94 ff e0 3d 00 08 00 00 75 16 be 17 00 00 [ 3389.935851] JIT code: 00000030: 00 e8 28 94 ff e0 83 f8 01 75 07 b8 ff ff 00 00 [ 3389.935852] JIT code: 00000040: eb 02 31 c0 c9 c3
如果在编译时设置了
CONFIG_BPF_JIT_ALWAYS_ON
, bpf_jit_enable
就会
永久性设为 1
,再设置成其他值时会报错 —— 包括将其设为 2 时,因为
并不推荐将最终的 JIT 镜像打印到内核日志
,通常推荐开发者通过 bpftool tools/bpf/bpftool/
来查看镜像内容。
5.2 工具: bpf_jit_disasm
在内核 tools/bpf/
目录下还有一个 bpf_jit_disasm
工具,用于生成
反汇编
(disassembly),
$ ./bpf_jit_disasm 70 bytes emitted from JIT compiler (pass:3, flen:6) ffffffffa0069c8f + <x>: 0: push %rbp ; 这些已经是 eBPF 指令而非 cBPF 指令,后面章节会详细介绍 1: mov %rsp,%rbp 4: sub $0x60,%rsp 8: mov %rbx,-0x8(%rbp) c: mov 0x68(%rdi),%r9d 10: sub 0x6c(%rdi),%r9d 14: mov 0xd8(%rdi),%r8 1b: mov $0xc,%esi 20: callq 0xffffffffe0ff9442 25: cmp $0x800,%eax 2a: jne 0x0000000000000042 2c: mov $0x17,%esi 31: callq 0xffffffffe0ff945e 36: cmp $0x1,%eax 39: jne 0x0000000000000042 3b: mov $0xffff,%eax 40: jmp 0x0000000000000044 42: xor %eax,%eax 44: leaveq 45: retq
-o
参数可以
对照打印字节码和相应的汇编指令
,对 JIT 开发者非常有用:
# ./bpf_jit_disasm -o 70 bytes emitted from JIT compiler (pass:3, flen:6) ffffffffa0069c8f + <x>: 0: push %rbp 55 1: mov %rsp,%rbp 48 89 e5 4: sub $0x60,%rsp 48 83 ec 60 8: mov %rbx,-0x8(%rbp) 48 89 5d f8 c: mov 0x68(%rdi),%r9d 44 8b 4f 68 10: sub 0x6c(%rdi),%r9d 44 2b 4f 6c 14: mov 0xd8(%rdi),%r8 4c 8b 87 d8 00 00 00 1b: mov $0xc,%esi be 0c 00 00 00 20: callq 0xffffffffe0ff9442 e8 1d 94 ff e0 25: cmp $0x800,%eax 3d 00 08 00 00 2a: jne 0x0000000000000042 75 16 2c: mov $0x17,%esi be 17 00 00 00 31: callq 0xffffffffe0ff945e e8 28 94 ff e0 36: cmp $0x1,%eax 83 f8 01 39: jne 0x0000000000000042 75 07 3b: mov $0xffff,%eax b8 ff ff 00 00 40: jmp 0x0000000000000044 eb 02 42: xor %eax,%eax 31 c0 44: leaveq c9 45: retq c3
5.3 JIT 开发者工具箱
对 JIT 开发者来说,我们已经介绍的这几个工具:
- bpf_jit_disasm
- bpf_asm
- bpf_dbg
都是非常有用的。
————————————————————————
eBPF 相关内容
————————————————————————
6 BPF kernel internals(eBPF)
在内核内部,解释器(the kernel interpreter)使用的是与 cBPF 类似、但属于 另一种指令集的格式 。 这种指令集格式的参考处理器原生指令集建模,因此 更接近底层处理器架构 , 性能更好(后面会详细介绍)。
这种 新的指令集称为 “eBPF” ,也叫 “internal BPF”。
注意:eBPF 这个名字源自 [e]xtended BPF (直译为“扩展的 BPF”), 它与 BPF extensions (直译为 “BPF 扩展”,见前面章节)并不是一个概念!
- eBPF 是一种 指令集架构(ISA) ,
-
BPF extensions 是早年
cBPF
中对
BPF_LD | BPF_{B,H,W} | BPF_ABS
几个指令 进行 overloading 的技术 。
6.1 eBPF 设计考虑
- 力求 JIT 编译时,能将 eBPF 指令一一映射到原生指令 , 这种设计也给 GCC/LLVM 等编译器打开了方便之门,因为它们可以通过各自的 eBPF 后端生成优化的、与原生编译之后的代码几乎一样快 的 eBPF 代码。
- 最初设计时,目标是能用 “受限的 C 语言” 来编写程序,然后 通过可选的 GCC/LLVM 后端编译成 eBPF,因此它能以两步最小的性能开销,即时映射成 现代 64 位 CPU 指令,即 C -> eBPF -> native code 。
6.2 cBPF->eBPF 自动转换
下列 cBPF 的经典使用场景中:
- seccomp BPF
- classic socket filters
- cls_bpf traffic classifier
- team driver’s classifier for its load-balancing mode
- netfilter’s xt_bpf extension
- PTP dissector/classifier
- and much more.
cBPF 已经在内核中被 透明地转换成了 eBPF,然后在 eBPF 解释器中执行 。
在 in-kernel handlers 中,可以使用下面的函数:
bpf_prog_create() bpf_prog_destroy()
BPF_PROG_RUN(filter, ctx)
执行过滤代码,它或者
透明地
触发 eBPF 解释器执行
,或者
执行 JIT 编译之后的代码
。
-
filter
是bpf_prog_create()
的返回值,类型是struct bpf_prog *
类型; -
ctx
是程序上下文(例如 skb 指针)。
在转换成新指令之前,会通过 bpf_check_classic()
检查 cBPF 程序是否有问题。
当前,在大部分 32 位架构上,都是用 cBPF 格式做 JIT 编译; 而在 x86-64, aarch64, s390x, powerpc64, sparc64, arm32, riscv64, riscv32 架构上,直接从 eBPF 指令集执行 JIT 编译。
6.3 eBPF 相比 cBPF 的核心变化
6.3.1 寄存器数量从 2 个增加到 10 个
- 老格式(cBPF)只有两个寄存器 A 和 X,以及一个隐藏的栈指针(frame pointer)。
- 新格式(eBPF)扩展到了 10 个内部寄存器,以及一个只读的栈指针。
传参寄存器数量
由于 64 位 CPU 都是 通过寄存器传递函数参数 的,因此从 eBPF 程序 传给内核函数(in-kernel function)的 参数数量限制到 5 个 ,另有 一个寄存器用来接收内核函数的返回值,
考虑到具体的处理器架构,
x86_64
eBPF 调用约定
因此, eBPF 调用约定 (calling convention)定义如下:
- R0 - return value from in-kernel function, and exit value for eBPF program
- R1 - R5 - arguments from eBPF program to in-kernel function
- R6 - R9 - callee saved registers that in-kernel function will preserve
- R10 - read-only frame pointer to access stack
这样的设计,使 所有的 eBPF 寄存器都能一一映射到 x86_64、aarch64 等架构上的 硬件寄存器 ,eBPF 调用约定也直接映射到 64 位的内核 ABI。
在 32 位架构上,JIT 只能编译那些只使用了 32bit 算术操作的程序,其他更复杂的程序,交给解释器来执行。
6.3.2 寄存器位宽从 32bit 扩展到 64bit
原来的 32bit ALU 操作仍然是支持的,通过 32bit 子寄存器执行。 所有 eBPF 寄存器都是 64bit 的,如果对 32bit 子寄存器有写入操作,它会被 zero-extend 成 64bit。 这种行为能直接映射到 x86_64 和 arm64 子寄存器的定义,但对其他处理器架构来说,JIT 会更加困难。
32-bit 的处理器架构上,通过解释器执行 64-bit 的 eBPF 程序。这种平台上的 JIT 编译器 只能编译那些只使用了 32bit 子寄存器的程序,其他不能编译的程序,通过解释器执行。
eBPF 操作都是 64 位的,原因:
-
64 位处理器架构上指针也是 64 位的,我们希望与内核函数交互时,输入输出的都是 64 位值。如果使用 32 位 eBPF 寄存器,就需要定义 register-pair ABI,导致无法 直接将 eBPF 寄存器映射到物理寄存器,JIT 就必须为与函数调用相关的每个寄存器承 担 拼装/拆分/移动 等等操作,不仅复杂,而且很容易产生 bug,效率也很低。
-
另一个原因是 eBPF 使用了 64 位的原子计数器(atomic 64-bit counters)。
6.3.3 条件跳转: jt/fall-through
取代 jt/jf
cBPF 的设计中有条件判断:
if (cond) jump_true; else jump_false;
现在被下面的结构取代了:
if (cond) jump_true; /* else fall-through */
6.3.4 引入 bpf_call
指令和寄存器传参约定,实现零(额外)开销内核函数调用
引入的寄存器传参约定,能实现 零开销内核函数调用(zero overhead calls from/to other kernel functions)。
在调用内核函数之前,eBPF 程序需要按照调用约定,将参数依次放到 R1-R5 寄存器; 然后解释器会从这些寄存器读取参数,传递给内核函数。
原理:JIT 实现零(额外)开销内核函数调用
如果 R1-R5 能一一映射到处理器上的寄存器,JIT 编译器就 无需 emit 任何额外的指令 :
- 函数 参数已经在(硬件处理器)期望的位置 ;
-
只需要将 eBPF
BPF_CALL
JIT 编译成一条处理器原生的call
指令 就行了。 - 这种 无性能损失的调用约定 设计,足以覆盖大部分场景。
函数调用结束后,R1-R5 会被重置为不可读状态(unreadable),函数返回值存放在 R0。 R6-R9 是被调用方(callee)保存的,因此函数调用结束后里面的值是可读的。
示例解析(一):eBPF/C 函数混合调用,JIT 生成的 x86_64 指令
考虑下面的三个 C 函数:
u64 f1() { return (*_f2)(1); } u64 f2(u64 a) { return f3(a + 1, a); } u64 f3(u64 a, u64 b) { return a - b; }
GCC 能将 f1 和 f3 编译成 x86_64:
f1: movl $1, %edi ; 将常量 1 加载到 edi 寄存器 movq _f2(%rip), %rax ; 将 _f2 地址加载到 rax 寄存器 jmp *%rax ; 跳转到 rax 寄存器中指定的地址(即函数 _f2 的起始地址) f3: movq %rdi, %rax ; 将寄存器 rdi 中的值加载到寄存器 rax subq %rsi, %rax ; 将寄存器 rax 中的值减去寄存器 rsi 中的值(即 a-b) ret ; 返回
f2 的 eBPF 代码可能如下:
f2: bpf_mov R2, R1 ; 即 R2 = a bpf_add R1, 1 ; 即 R1 = a + 1 bpf_call f3 ; 调用 f3,传递给 f3 的两个参数分别在 R1 和 R2 中 bpf_exit ; 退出
-
如果
f2 是 JIT 编译的
,函数地址保存为变量
_f2
,那调用链f1 -> f2 -> f3
及返回就都是连续的。 -
如果
没有 JIT
,就需要
调用解释器
__bpf_prog_run()
来调用执行 f2。
出于一些实际考虑,
-
所有 eBPF 程序都只有一个参数
ctx
,放在 R1 寄存器中 ,例如__bpf_prog_run(ctx)
。 - 函数调用最多支持传递 5 个参数,但如果将来有需要,这个限制也可以进一步放宽。
eBPF 寄存器到 x86_64 硬件寄存器一一映射关系
在 64 位架构上,所有寄存器都能一一映射到硬件寄存器。例如,由于 x86_64 ABI 硬性规定 了
- rdi、rsi、rdx、rcx、r8 、 r9 寄存器作为参数传递;
- rbx ,以及 r12 - r15 由被调用方(callee)保存;
因此 x86_64 编译会做如下映射:
R0 -> rax R1 -> rdi ; 传参,调用方(caller)保存 R2 -> rsi ; 传参,调用方(caller)保存 R3 -> rdx ; 传参,调用方(caller)保存 R4 -> rcx ; 传参,调用方(caller)保存 R5 -> r8 ; 传参,调用方(caller)保存 R6 -> rbx ; 被调用方(callee)保存 R7 -> r13 ; 被调用方(callee)保存 R8 -> r14 ; 被调用方(callee)保存 R9 -> r15 ; 被调用方(callee)保存 R10 -> rbp ; 被调用方(callee)保存 ...
示例解析(二):C 调 eBPF 代码编译成 x86_64 汇编后的样子
根据上面的映射关系,下面的 BPF 程序:
// BPF 指令格式: // <指令> <目的寄存器> <源寄存器/常量> bpf_mov R6, R1 ; 将 ctx 保存到 R6 bpf_mov R2, 2 ; 将常量 2(即将调用的函数 foo() 的参数)加载到 R2 寄存器 bpf_mov R3, 3 bpf_mov R4, 4 bpf_mov R5, 5 bpf_call foo ; 调用 foo 函数 bpf_mov R7, R0 ; 将 foo() 的返回值(在 R0 中)保存到 R7 中 bpf_mov R1, R6 ; 从 R6 中恢复 ctx 状态,保存到 R1;这样下次执行调用函数调用时就可以继续使用了; bpf_mov R2, 6 ; 将常量 2(即将调用的函数 bar() 的参数)加载到 R2 寄存器 bpf_mov R3, 7 bpf_mov R4, 8 bpf_mov R5, 9 bpf_call bar ; 调用 bar() 函数 bpf_add R0, R7 ; 将 bar() 的返回值(在 R0 中)与 foo() 的返回值(在 R7 中)相加 bpf_exit
在 JIT 成 x86_64 之后,可能长下面这样:
将 “eBPF 寄存器 -> x86_64 硬件寄存器” 映射关系贴到这里方便下面程序对照
R0 -> rax R1 -> rdi // 传参,调用方(caller)保存 R2 -> rsi // 传参,调用方(caller)保存 R3 -> rdx // 传参,调用方(caller)保存 R4 -> rcx // 传参,调用方(caller)保存 R5 -> r8 // 传参,调用方(caller)保存 R6 -> rbx // 被调用方(callee)保存 R7 -> r13 // 被调用方(callee)保存 R8 -> r14 // 被调用方(callee)保存 R9 -> r15 // 被调用方(callee)保存 R10 -> rbp // 被调用方(callee)保存
// x86_64 指令格式:注意源和目的寄存器的顺序与 BPF 指令是相反的 // <指令> <源寄存器/常量> <目的寄存器> // 下面这几行是 x86_64 的初始化指令,与 eBPF 还没有直接对应关系 // 解读参考:http://stackoverflow.com/questions/41912684/what-is-the-purpose-of-the-rbp-register-in-x86-64-assembler push %rbp // 将帧指针(frame pointer)在栈地址空间中前移,即栈空间增长一个单位(一个单位 64bit) mov %rsp, %rbp // 将栈指针(stack pointer)保存到 %rbp 位置(即上一行刚在栈上分配的位置) sub $0x228, %rsp // 栈指针 rsp -= 0x228(栈向下增长,这一行表示再分配 0x228 个单位的栈空间) mov %rbx, -0x228(%rbp) // 将 %rbx(对应 eBPF R6)的值保存到新分配空间的起始处(占用 8 个字节),因为 eBPF 程序返回时会占用 rbx 寄存器 mov %r13, -0x220(%rbp) // 将 %r13 (对应 eBPF R7)的值保存到下一个位置(起始位置 = 0x228 - 0x8 = 0x220,也是占用 8 个字节),理由同上 // 接下来还应该有三条指令,分别将 r14、15、rbp 依次保存到栈上,理由同上。 // 这样,这 5 条指令占用 5*8 = 40byte = 0x28 字节。刚才总共申请了 0x228 字节, // 0x228 - 0x28 = 0x200 = 512 字节,也就是 eBPF 文档里常说的:eBPF 虚拟机最大支持 512 字节的栈空间。 // 下面这段与上面的 eBPF 指令能一一对应上 mov %rdi, %rbx // R6 = R1 mov $0x2, %esi // R2 = 2 mov $0x3, %edx // R3 = 3 mov $0x4, %ecx // R4 = 4 mov $0x5, %r8d // R5 = 5 callq foo mov %rax, %r13 // R7 = R0 mov %rbx, %rdi // R1 = R6 mov $0x6, %esi // R2 = 6 mov $0x7, %edx // R3 = 7 mov $0x8, %ecx // R4 = 8 mov $0x9, %r8d // R5 = 9 callq bar add %r13, %rax // R7 += R0 mov -0x228(%rbp), %rbx mov -0x220(%rbp), %r13 leaveq retq
下面是对应的 C 代码:
u64 bpf_filter(u64 ctx) { return foo(ctx, 2, 3, 4, 5) + bar(ctx, 6, 7, 8, 9); }
内核函数 foo()
和 bar()
原型:
u64 (*)(u64 arg1, u64 arg2, u64 arg3, u64 arg4, u64 arg5);
它们从规定好的寄存器中获取传入参数,并将函数返回值放到 %rax
寄存器,也就是 eBPF 中的 R0 寄存器。
起始和结束的汇编片段
(prologue and epilogue)是由 JIT emit 出来的,是解释器内置的
。
上面添加了对起始汇编片段的一些解读,尤其是:为什么 “eBPF 虚拟机的最大栈空间是 512 字节” 。 译注。
R0-R5 are scratch registers,因此 eBPF 程序需要在多次函数调用之间保存这些值。 下面这个程序例子是不合法的:
bpf_mov R1, 1 bpf_call foo bpf_mov R0, R1 bpf_exit
在执行 call
之后,寄存器
R1-R5 包含垃圾值,不能读取
。
内核中的校验器(in-kernel eBPF verifier)负责验证 eBPF 程序的合法性。
6.4 eBPF 程序最大指令数限制
eBPF 最初限制最大指令数 4096,现在已经将这个限制放大到了 100 万条 。
cBPF 和 eBPF 都是 两操作数指令 (two operand instructions),有 助于 JIT 编译时将 eBPF 指令一一映射成 x86 指令。
6.5 eBPF 程序上下文(ctx)参数
触发解释器执行时,传递给它的上下文指针(the input context pointer)是一个通用结构体, 结构体中的信息是由具体场景来解析的 。例如
-
对于 seccomp 来说,R1(也就是
ctx
)指向 seccomp_data, - 对于 eBPF filter(包括从 cBPF 转换过来的)来说,R1 指向一个 skb 。
6.6 cBPF -> eBPF 转换若干问题
内部的 cBPF -> eBPF 转换格式如下:
op:16, jt:8, jf:8, k:32 ==> op:8, dst_reg:4, src_reg:4, off:16, imm:32
op
eBPF 是一个 通用目的 RISC 指令集 。在将 cBPF 转成 eBPF 的过程中 ,不是每个寄存器和每条指令都会用到。例如,
exclusive add
某种意义上来说,eBPF 作为一个 通用汇编器 (generic assembler), 是性能优化的最后手段,
- socket filters 和 seccomp 就是把它当做汇编器在用;
- Tracing filters 可以用它作为汇编器,从内核生成代码。
6.7 eBPF 的安全性
内核内使用(in kernel usage)可能没有安全顾虑,因为生成的 eBPF 代码只是用于优化 内核内部代码路径,不会暴露给用户空间。eBPF 的安全问题可能会出自校验器本身(TBD )。因此在上述这些场景,可以把它作为一个安全的指令集来使用。
与 cBPF 类似,eBPF 运行在一个确定性的受控环境中,内核能依据下面两个步骤,轻松地对 程序的安全性 作出判断:
- 首先进行 深度优先搜索 (depth-first-search),禁止循环;其他 CFG 验证。
- 以上一步生成的指令作为输入, 遍历所有可能的执行路径 。具体说 就是模拟每条指令的执行, 观察寄存器和栈的状态变化 。
7 eBPF 字节码编码(opcode encoding)
为方便 cBPF 到 eBPF 的转换,eBPF 复用了 cBPF 的大部分 opcode encoding。
7.1 算术和跳转指令
对于算术和跳转指令(arithmetic and jump instructions),eBPF 的 8bit op
字段进一步分为三部分:
+----------------+--------+--------------------+ | 4 bits | 1 bit | 3 bits | | operation code | source | instruction class | +----------------+--------+--------------------+ (MSB) (LSB)
最后的 3bit 表示的是指令类型,包括:
=================== =============== Classic BPF classes eBPF classes =================== =============== BPF_LD 0x00 BPF_LD 0x00 BPF_LDX 0x01 BPF_LDX 0x01 BPF_ST 0x02 BPF_ST 0x02 BPF_STX 0x03 BPF_STX 0x03 BPF_ALU 0x04 BPF_ALU 0x04 BPF_JMP 0x05 BPF_JMP 0x05 BPF_RET 0x06 BPF_JMP32 0x06 BPF_MISC 0x07 BPF_ALU64 0x07 =================== ===============
BPF_ALU 和 BPF_JMP 的 operand
当 BPF_CLASS(code) == BPF_ALU or BPF_JMP
时,第
4 bit 表示的源操作数(source operand)可以是:
BPF_K 0x00 // 32bit 立即数作为源操作数(use 32-bit immediate as source operand),对 cBPF/eBPF 一样 BPF_X 0x08 // 对 cBPF,表示用寄存器 X 作为源操作数 // 对 eBPF,表示用寄存器 src_reg 作为源操作数
BPF_ALU 和 BPF_ALU64 (eBPF) 的 opcode
BPF_CLASS(code) == BPF_ALU or BPF_ALU64 [ in eBPF ]
, BPF_OP(code)
可以是:
BPF_ADD 0x00 BPF_SUB 0x10 BPF_MUL 0x20 BPF_DIV 0x30 BPF_OR 0x40 BPF_AND 0x50 BPF_LSH 0x60 BPF_RSH 0x70 BPF_NEG 0x80 BPF_MOD 0x90 BPF_XOR 0xa0 BPF_MOV 0xb0 /* eBPF only: mov reg to reg */ BPF_ARSH 0xc0 /* eBPF only: sign extending shift right */ BPF_END 0xd0 /* eBPF only: endianness conversion */
BPF_JMP 和 BPF_JMP32 (eBPF) 的 opcode
BPF_CLASS(code) == BPF_JMP or BPF_JMP32 [ in eBPF ]
, BPF_OP(code)
可以是:
BPF_JA 0x00 /* BPF_JMP only */ BPF_JEQ 0x10 BPF_JGT 0x20 BPF_JGE 0x30 BPF_JSET 0x40 BPF_JNE 0x50 /* eBPF only: jump != */ BPF_JSGT 0x60 /* eBPF only: signed '>' */ BPF_JSGE 0x70 /* eBPF only: signed '>=' */ BPF_CALL 0x80 /* eBPF BPF_JMP only: function call */ BPF_EXIT 0x90 /* eBPF BPF_JMP only: function return */ BPF_JLT 0xa0 /* eBPF only: unsigned '<' */ BPF_JLE 0xb0 /* eBPF only: unsigned '<=' */ BPF_JSLT 0xc0 /* eBPF only: signed '<' */ BPF_JSLE 0xd0 /* eBPF only: signed '<=' */
指令
BPF_ADD | BPF_X | BPF_ALU
在 cBPF 和 eBPF 中都表示 32bit 加法:
A += X dst_reg = (u32) dst_reg + (u32) src_reg
类似的,
BPF_XOR | BPF_K | BPF_ALU
表示:
A ^= imm32 src_reg = (u32) src_reg ^ (u32) imm32
BPF_MISC 与 BPF_ALU64(eBPF 64bit 寄存器加法操作)
cBPF 用 BPF_MISC 类型表示 A = X 和 X = A 操作。
eBPF 中与此对应的是 BPF_MOV | BPF_X | BPF_ALU
。
由于 eBPF 中没有 BPF_MISC 操作,因此 class 7 空出来了,用作了新指令类型 BPF_ALU64,表示 64bit BPF_ALU 操作。
因此, BPF_ADD | BPF_X | BPF_ALU64
表示 64bit 加法,例如 dst_reg = dst_reg + src_reg
。
cBPF/eBPF BPF_RET 指令的不同
cBPF 用整个 BPF_RET class 仅仅表示一个 ret
操作,非常浪费。
其 BPF_RET | BPF_K
表示将立即数 imm32 拷贝到返回值寄存器,然后退出函数。
eBPF 是模拟 CPU 建模的,因此 eBPF 中 BPF_JMP | BPF_EXIT
只表示退出函数操作。
eBPF 程序自己负责在执行 BPF_EXIT 之前,将返回值拷贝到 R0。
BPF_JMP 与 eBPF BPF_JMP32
Class 6 in eBPF 用作 BPF_JMP32,表示的意思与 BPF_JMP 一样,但操作数是 32bit 的。
7.2 加载指令(load/store)
load and store 指令的 8bit code 进一步分为三部分:
+--------+--------+-------------------+ | 3 bits | 2 bits | 3 bits | | mode | size | instruction class | +--------+--------+-------------------+ (MSB) (LSB)
2bit 的 size modifier 可以是:
BPF_W 0x00 /* word */ BPF_H 0x08 /* half word */ BPF_B 0x10 /* byte */ BPF_DW 0x18 /* eBPF only, double word */
表示的是 load/store 操作的字节数:
B - 1 byte H - 2 byte W - 4 byte DW - 8 byte (eBPF only)
Mode modifier 可以是:
BPF_IMM 0x00 /* used for 32-bit mov in classic BPF and 64-bit in eBPF */ BPF_ABS 0x20 BPF_IND 0x40 BPF_MEM 0x60 BPF_LEN 0x80 /* classic BPF only, reserved in eBPF */ BPF_MSH 0xa0 /* classic BPF only, reserved in eBPF */ BPF_XADD 0xc0 /* eBPF only, exclusive add */
两个 eBPF non-generic 指令:BPF_ABS 和 BPF_IND,用于访问 skb data
eBPF 有两个 non-generic 指令,用于兼容 cBPF:
BPF_ABS | <size> | BPF_LD BPF_IND | <size> | BPF_LD
二者用来 访问数据包中的数据 (packet data)。
- 这两个指令 cBPF 中就有了,必须 eBPF 也必须要支持 ,而且 eBPF 解释器还要 高效地执行 这两条指令。
-
执行这个两个指令时, 传递给解释器的上下文 必须是
struct *sk_buff
, 并且 隐含了 7 个操作数 :-
R6 作为
隐式输入
,存放的必须是
struct *sk_buff
; - R0 作为 隐式输出 ,存放的是从包中读取的数据;
-
R1-R5 作为 scratch registers,不能在多次
BPF_ABS | BPF_LD
或BPF_IND | BPF_LD
指令之间在这几个寄存器中保存数据(每次调用执行之后,都会将这些寄存器置空);
-
R6 作为
隐式输入
,存放的必须是
-
这些指令还有隐含的程序退出条件。当 eBPF 程序试图访问数据包边界之外的数据时,解释器
会终止(abort)程序的执行。因此,eBPF JIT 编译器也必须实现这个特性。
src_reg
和 imm32 字段是这些指令的显式输入。
看个例子,
BPF_IND | BPF_W | BPF_LD
翻译成 C 语言表示:
R0 = ntohl(*(u32 *) (((struct sk_buff *) R6)->data + src_reg + imm32))
。
过程中会用到 R1-R5(R1-R5 were scratched)。
通用 eBPF load/store 指令
与 cBPF 指令集不同,eBPF 有通用 load/store 操作:
BPF_MEM | <size> | BPF_STX: *(size *)(dst_reg + off) = src_reg BPF_MEM | <size> | BPF_ST : *(size *)(dst_reg + off) = imm32 BPF_MEM | <size> | BPF_LDX: dst_reg = *(size *)(src_reg + off) BPF_XADD | BPF_W | BPF_STX: lock xadd *(u32 *)(dst_reg + off16) += src_reg BPF_XADD | BPF_DW | BPF_STX: lock xadd *(u64 *)(dst_reg + off16) += src_reg
其中,size 是:
BPF_B BPF_H BPF_W BPF_DW
注意:这里不支持 1 或 2 字节的原子递增操作。
加载 64bit 立即数的 eBPF 指令
eBPF 有一个 16-byte instruction: BPF_LD | BPF_DW | BPF_IMM
,功能是将 64bit 立即数(imm64)加载到寄存器:
struct bpf_insn dst_reg
cBPF 中有一个类似指令 BPF_LD | BPF_W | BPF_IMM
,功能是将一个 32bit 立即值(imm)加载到寄存器。
8 eBPF 校验器(eBPF verifier)
eBPF 程序的安全是通过两个步骤来保证的:
- 首先做一次 DAG 检查,确保没有循环,并执行其他 CFG validation。特别地,这会检查程序中是否有 无法执行到的指令(unreachable instructions,虽然 cBPF checker 是允许的)。
- 第二步是从程序的第一条指令开始,遍历所有的可能路径。这一步会模拟执行每一条指令,在过程中观察寄存器和栈的状态变化。
8.1 模拟执行
-
程序开始时, R1 中存放的是上下文指针 (
ctx
),类型是PTR_TO_CTX
。- 接下来,如果校验器看到 R2=R1,那 R2 的类型也变成了 PTR_TO_CTX ,并且接下来就能用在表达式的右侧。
- 如果 R1=PTR_TO_CTX 接下来的指令是 R2=R1+R1,那 R2=SCALAR_VALUE , 因为 两个合法指针相加,得到的是一个非法指针 。(在 “secure” 模式下, 校验器会拒绝任何类型的指针运算,以确保内核地址不会泄露给 unprivileged users)。
-
从来没有写入过数据的寄存器是不可读的,例如:
bpf_mov R0 = R2 bpf_exit
将会被拒绝,因为程序开始之后,R2 还没有初始化过。
- 内核函数 执行完成后,R1-R5 将被重置为不可读状态 ,R0 保存函数的返回值。
-
由于 R6-R9 是被调用方(callee)保存的,因此它们的状态在函数调用结束之后还是有效的。
bpf_mov R6 = 1 bpf_call foo bpf_mov R0 = R6 bpf_exit
以上程序是合法的。如果换成了
R0 = R1
,就会被拒绝。
8.2 load/store 指令检查
load/store 指令只有当 寄存器类型合法时 才能执行,这里的类型包括 PTR_TO_CTX、PTR_TO_MAP、PTR_TO_STACK。会对它们做边界和对齐检查。例如:
bpf_mov R1 = 1 bpf_mov R2 = 2 bpf_xadd *(u32 *)(R1 + 3) += R2 bpf_exit
将会被拒,因为执行到第三行时,R1 并不是一个合法的指针类型。
8.3 定制化校验器,限制程序只能访问 ctx
特定字段
程序开始时,R1 类型是 PTR_TO_CTX(指向通用类型 struct bpf_context
的指针)。
可以
通过 callback 定制化校验器
,指定 size 和对齐,来
限制 eBPF 程序只能访问 ctx 的特定字段
。
例如,下面的指令:
bpf_ld R0 = *(u32 *)(R6 + 8)
is_valid_access() [-MAX_BPF_STACK, 0)
8.4 读取栈空间
只有程序
向栈空间写入数据后,校验器才允许它从中读取数据
。cBPF
通过 M[0-15]
memory slots 执行类似的检查,例如
bpf_ld R0 = *(u32 *)(R10 - 4) bpf_exit
是非法程序。因为虽然 R10 是只读寄存器,类型 PTR_TO_STACK 也是合法的,并且 R10 - 4
也在栈边界内,但在这次读取操作之前,并没有往这个位置写入数据。
8.5 其他
-
指针寄存器(pointer register)spill/fill 操作也会被跟踪,因为 对一些程序来说,四个 (R6-R9) callee saved registers 显然是不够的 。
-
可通过
bpf_verifier_ops->get_func_proto()
来 定制允许执行哪些函数 。 eBPF 校验器会检查寄存器与参数限制是否匹配。调用结束之后,R0 用来存放函数返回值。 -
函数调用 是扩展 eBPF 程序功能的主要机制,但每种类型的 BPF 程 序能用到的函数是不同的,例如 socket filters 和 tracing 程序。
-
如果一个函数设计成对 eBPF 可见的,那必须从安全的角度对这个函数进行考量。校验 器会保证调用该函数时,参数都是合法的。
-
cBPF 中, seccomp 的安全限制与 socket filter 是不同的,它依赖 两个级联的校验器 :
- 首先执行 cBPF verifier,
- 然后再执行 seccomp verifier
而在 eBPF 中,所有场景都共用一个(可配置的)校验器。
更多关于 eBPF 校验器的信息,可参考 kernel/bpf/verifier.c 。
9 寄存器值跟踪(register value tracking)
为保证 eBPF 程序的安全,校验器必须跟踪每个
寄存器
和
栈上每个槽位
(stack slot)值的范围。这是通过
struct bpf_reg_state
实现的,定义在 include/linux/bpf_verifier.h
,
它
统一了对标量和指针类型的跟踪
(scalar and pointer values)。
每个 寄存器状态 都有一个 类型 ,
NOT_INIT SCALAR_VALUE
9.1 9 种指针类型
依据它们 指向的数据结构类型 ,又可以分为:
-
PTR_TO_CTX
:指向bpf_context
的指针。 -
CONST_PTR_TO_MAP
:指向struct bpf_map
的指针。 是 常量 (const),因为不允许对这种类型指针进行算术操作。 -
PTR_TO_MAP_VALUE
:指向 bpf map 元素 的指针。 -
PTR_TO_MAP_VALUE_OR_NULL
:指向 bpf map 元素的指针,可为 NULL。 访问 map 的操作 会返回这种类型的指针。 禁止算术操作 。 -
PTR_TO_STACK
:帧指针(Frame pointer)。 -
PTR_TO_PACKET
:指向skb->data
的指针。 -
PTR_TO_PACKET_END
:指向skb->data + headlen
的指针。禁止算术操作。 -
PTR_TO_SOCKET
:指向struct bpf_sock_ops
的指针,内部有引用计数。 -
PTR_TO_SOCKET_OR_NULL
:指向struct bpf_sock_ops
的指针,或 NULL。socket lookup 操作 会返回这种类型。 有引用计数 , 因此程序在执行结束时,必须通过 socket release 函数释放引用。禁止算术操作。
这些指针都称为 base 指针。
9.2 指针偏移(offset)触发寄存器状态更新
实际上,很多有用的指针都是 base 指针加一个 offset(指针算术运算的结果), 这是通过两方面来个跟踪的:
- ‘fixed offset’( 固定偏移 ):offset 是个常量(例如,立即数)。
- ‘variable offset’( 可变偏移 ):offset 是个变量。这种类型还用在 SCALAR_VALUE 跟踪中,来跟踪寄存器值的可能范围。
校验器对可变 offset 的知识包括:
- 无符号类型:最小和最大值;
- 有符号类型:最小和最大值;
- 关于每个 bit 的知识,以 ‘tnum’ 的格式: 一个 u64 ‘mask’ 加一个 u64 ‘value’。
1s in the mask represent bits whose value is unknown;
1s in the value represent bits known to be 1. Bits known to be 0 have 0 in both
mask and value; no bit should ever be 1 in both。
例如,如果从内存加载一个字节到寄存器,那该寄存器的前 56bit 已知是全零,而后
8bit 是未知的 —— 表示为 tnum (0x0; 0xff)
。如果我们将这个值与 0x40 进行 OR
操作,就得到 (0x40; 0xbf)
;如果加 1 就得到 (0x0; 0x1ff)
,因为可能的进位操
作。
9.3 条件分支触发寄存器状态更新
除了算术运算之外,条件分支也能更新寄存器状态。例如,如果判断一个 SCALAR_VALUE 大于 8,那
umin_value
9.4 有符号比较触发寄存器状态更新
有符号比较 (BPF_JSGT or BPF_JSGE)也会相应更新有符号变量 的最大最小值。
有符合和无符号边界的信息可以结合起来;例如如果一个值先判断小于无 符号 8,后判断大于有符合 4,校验器就会得出结论这个值大于无符号 4,小于有符号 8 ,因为这个边界不会跨正负边界。
9.5 struct bpf_reg_state
的 id
字段
struct bpf_reg_state
结构体有一个
id
字段,
// include/linux/bpf_verifier.h /* For PTR_TO_PACKET, used to find other pointers with the same variable * offset, so they can share range knowledge. * For PTR_TO_MAP_VALUE_OR_NULL this is used to share which map value we * came from, when one is tested for != NULL. * For PTR_TO_MEM_OR_NULL this is used to identify memory allocation * for the purpose of tracking that it's freed. * For PTR_TO_SOCKET this is used to share which pointers retain the * same reference to the socket, to determine proper reference freeing. */ u32 id;
如注释所述,该字段针对不同指针类型有不同用途,下面分别解释。
PTR_TO_PACKET
id
字段对
共享同一 variable offset 的多个 PTR_TO_PACKET 指针
都是可见的,这对
skb 数据的范围检查
非常重要。举个例子:
1: A = skb->data // A 是指向包数据的指针 2: B = A + var2 // B 是从 A 开始往前移动 var2 得到的地址 3: A = A + 4 // A 往前移动 4 个字节
在这个程序中,寄存器
A 和 B 将将共享同一个 id
,
- A 已经从最初地址向前移动了 4 字节(有一个固定偏移 +4),
-
如果这个边界通过校验了,也就是确认小于
PTR_TO_PACKET_END
,那现在 寄存器 B 将有一个范围至少为 4 字节的可安全访问范围 。
更多关于这种指针的信息,见下面的 ‘Direct packet access’ 章节。
PTR_TO_MAP_VALUE
与上面的用途类型,具体来说:
- 这一字段对共享同一基础指针的多个 PTR_TO_MAP_VALUE 指针可见;
- 这些指针中, 只要一个指针经验证是非空的,就认为其他指针(副本)都是非空的 (因此减少重复验证开销);
另外,与 range-checking 类型,跟踪的信息(the tracked information)还用于
确保指针访问的正确对齐
。
例如,在大部分系统上,packet 指针都 4 字节对齐之后再加 2 字节。如果一个程序将这个指针加 14(跳过
Ethernet header)然后读取 IHL,并将指针再加上 IHL * 4
,最终的指针将有一个 4n + 2
的 variable offset,因此,加 2 ( NET_IP_ALIGN
)
gives a 4-byte alignment,因此通过这个指针进行 word-sized accesses 是安全的。
PTR_TO_SOCKET
与上面用途类似,只要一个指针验证是非空的,其他共享同一 id
的PTR_TO_SOCKET 指针就都是非空的;此外,
还
负责跟踪指针的引用
(reference tracking for the pointer)。
PTR_TO_SOCKET 隐式地表示对一个 struct sock
的引用。为确保引用没有泄露,需要强制对引用进行非空(检查),
如果非空(non-NULL),将合法引用传给 socket release 函数。
10 直接数据包访问(direct packet access)
对于 cls_bpf 和 act_bpf eBPF 程序,校验器允许
直接通过 skb->data
和 skb->data_end
指针访问包数据
。
10.1 简单例子
1: r4 = *(u32 *)(r1 +80) /* load skb->data_end */ 2: r3 = *(u32 *)(r1 +76) /* load skb->data */ 3: r5 = r3 4: r5 += 14 5: if r5 > r4 goto pc+16 R1=ctx R3=pkt(id=0,off=0,r=14) R4=pkt_end R5=pkt(id=0,off=14,r=14) R10=fp # 校验器标记 6: r0 = *(u16 *)(r3 +12) /* access 12 and 13 bytes of the packet */
上面从包数据中加载 2 字节的操作是安全的,因为
程序编写者在第五行主动检查了数据边界
: if (skb->data + 14 > skb->data_end) goto err
,这意味着能执行到第 6 行时(fall-through case),
R3( skb->data
)至少有 14 字节的直接可访问数据,因此
校验器将其标记为 R3=pkt(id=0,off=0,r=14)
:
-
id=0
表示 没有额外的变量加到这个寄存器上 ; -
off=0
表示 没有额外的常量 offset ; -
r=14
表示 安全访问的范围 ,即[R3, R3+14)
指向的字节范围都是 OK 的。
这里注意
R5 被标记为 R5=pkt(id=0,off=14,r=14)
,
-
它也指向包数据,但
常量 14 加到了寄存器
,因为它执行的是
skb->data + 14
, -
因此可访问的范围是
[R5, R5 + 14 - 14)
,也就是 0 个字节。
10.2 复杂例子
下面是个更复杂一些的例子:
R0=inv1 R1=ctx R3=pkt(id=0,off=0,r=14) R4=pkt_end R5=pkt(id=0,off=14,r=14) R10=fp 6: r0 = *(u8 *)(r3 +7) /* load 7th byte from the packet */ 7: r4 = *(u8 *)(r3 +12) 8: r4 *= 14 9: r3 = *(u32 *)(r1 +76) /* load skb->data */ 10: r3 += r4 11: r2 = r1 12: r2 <<= 48 13: r2 >>= 48 14: r3 += r2 15: r2 = r3 16: r2 += 8 17: r1 = *(u32 *)(r1 +80) /* load skb->data_end */ 18: if r2 > r1 goto pc+2 R0=inv(id=0,umax_value=255,var_off=(0x0; 0xff)) R1=pkt_end R2=pkt(id=2,off=8,r=8) R3=pkt(id=2,off=0,r=8) R4=inv(id=0,umax_value=3570,var_off=(0x0; 0xfffe)) R5=pkt(id=0,off=14,r=14) R10=fp 19: r1 = *(u8 *)(r3 +4)
校验器标记信息解读
第 18 行之后,寄存器 R3 的状态是 R3=pkt(id=2,off=0,r=8)
,
-
id=2
表示 之前已经跟踪到两个r3 += rX
指令 ,因此 r3 指向某个包内的某个 offset,由于程序员在 18 行已经做了if (r3 + 8 > r1) goto err
检查,因此 安全范围 是[R3, R3 + 8)
。 - 校验器 只允许对 packet 寄存器执行 add/sub 操作。其他操作会将 寄存器状态设为 SCALAR_VALUE,这个状态是不允许执行 direct packet access 的 。
操作 r3 += rX
可能会溢出,变得比起始地址 skb->data 还小
,校验器必须要能检查出这种情况。
因此当它看到 r3 += rX
指令并且 rX 比 16bit 值还大时,接下来的任何将 r3 与 skb->data_end
对比的操作都
不会返回范围信息
,因此尝试通过
这个指针读取数据的操作都会收到
invalid access to packet
错误。
例如,
-
r4 = *(u8 *)(r3 +12)
之后,r4 的状态是R4=inv(id=0,umax_value=255,var_off=(0x0; 0xff))
,意思是 寄存器的 upper 56 bits 肯定是 0,但对于低 8bit 信息一无所知。 在执行完r4 *= 14
之后,状态变成R4=inv(id=0,umax_value=3570,var_off=(0x0; 0xfffe))
,因为一个 8bit 值乘以 14 之后, 高 52bit 还是 0,此外最低 bit 位为 0,因为 14 是偶数。 -
类似地,
r2 >>= 48
使得R2=inv(id=0,umax_value=65535,var_off=(0x0; 0xffff))
,因为移位是无符号扩展。 这个逻辑在函数adjust_reg_min_max_vals()
中实现,它又会调用adjust_ptr_min_max_vals() adjust_scalar_min_max_vals()
对应的 C 代码
最终的结果是:eBPF 程序编写者可以像使用普通 C 语言一样访问包数据:
void *data = (void *)(long)skb->data; void *data_end = (void *)(long)skb->data_end; struct eth_hdr *eth = data; struct iphdr *iph = data + sizeof(*eth); struct udphdr *udp = data + sizeof(*eth) + sizeof(*iph); if (data + sizeof(*eth) + sizeof(*iph) + sizeof(*udp) > data_end) return 0; if (eth->h_proto != htons(ETH_P_IP)) return 0; if (iph->protocol != IPPROTO_UDP || iph->ihl != 5) return 0; if (udp->dest == 53 || udp->source == 9) ...;
相比使用 LD_ABS 之类的指令,这种程序写起来方便多了。
11 eBPF maps
‘maps’ is a generic storage of different types for sharing data between kernel and userspace.
The maps are accessed from user space via BPF syscall, which has commands:
-
create a map with given type and attributes
map_fd = bpf(BPF_MAP_CREATE, union bpf_attr *attr, u32 size)
using attr->map_type, attr->key_size, attr->value_size, attr->max_entries returns process-local file descriptor or negative error -
lookup key in a given map
err = bpf(BPF_MAP_LOOKUP_ELEM, union bpf_attr *attr, u32 size)
using attr->map_fd, attr->key, attr->value returns zero and stores found elem into value or negative error -
create or update key/value pair in a given map
err = bpf(BPF_MAP_UPDATE_ELEM, union bpf_attr *attr, u32 size)
using attr->map_fd, attr->key, attr->value returns zero or negative error -
find and delete element by key in a given map
err = bpf(BPF_MAP_DELETE_ELEM, union bpf_attr *attr, u32 size)
using attr->map_fd, attr->key -
to delete map: close(fd) Exiting process will delete maps automatically
userspace programs use this syscall to create/access maps that eBPF programs are concurrently updating.
maps can have different types: hash, array, bloom filter, radix-tree, etc.
The map is defined by:
- type
- max number of elements
- key size in bytes
- value size in bytes
12 Pruning(剪枝)
校验器实际上 并不会模拟执行程序的每一条可能路径 。
对于每个新条件分支:校验器首先会查看它自己当前已经跟踪的所有状态。如果这些状态 已经覆盖到这个新分支,该分支就会被剪掉(pruned)—— 也就是说之前的状态已经被接受 (previous state was accepted)能证明当前状态也是合法的。
举个例子:
- 当前的状态记录中,r1 是一个 packet-pointer
- 下一条指令中,r1 仍然是 packet-pointer with a range as long or longer and at least as strict an alignment,那 r1 就是安全的。
类似的,如果 r2 之前是 NOT_INIT
,那就说明之前任何代码路径都没有用到这个寄存器
,因此 r2 中的任何值(包括另一个 NOT_INIT)都是安全的。
实现在 regsafe()
函数。
Pruning 过程不仅会看寄存器,还会看栈(及栈上的 spilled registers)。
只有证明二者都安全时,这个分支才会被 prune。这个过程实现在 states_equal()
函数。
13 理解 eBPF 校验器提示信息
提供几个不合法的 eBPF 程序及相应校验器报错的例子。
The following are few examples of invalid eBPF programs and verifier error messages as seen in the log:
13.1 程序包含无法执行到的指令
static struct bpf_insn prog[] = { BPF_EXIT_INSN(), BPF_EXIT_INSN(), };
Error:
unreachable insn 1
13.2 程序读取未初始化的寄存器
BPF_MOV64_REG(BPF_REG_0, BPF_REG_2), BPF_EXIT_INSN(),
Error:
0: (bf) r0 = r2 R2 !read_ok
13.3 程序退出前未设置 R0 寄存器
BPF_MOV64_REG(BPF_REG_2, BPF_REG_1), BPF_EXIT_INSN(),
Error:
0: (bf) r2 = r1 1: (95) exit R0 !read_ok
13.4 程序访问超出栈空间
BPF_ST_MEM(BPF_DW, BPF_REG_10, 8, 0), BPF_EXIT_INSN(),
Error::
0: (7a) *(u64 *)(r10 +8) = 0 invalid stack off=8 size=8
13.5 未初始化栈内元素,就传递该栈地址
BPF_MOV64_REG(BPF_REG_2, BPF_REG_10), BPF_ALU64_IMM(BPF_ADD, BPF_REG_2, -8), BPF_LD_MAP_FD(BPF_REG_1, 0), BPF_RAW_INSN(BPF_JMP | BPF_CALL, 0, 0, 0, BPF_FUNC_map_lookup_elem), BPF_EXIT_INSN(),
Error::
0: (bf) r2 = r10 1: (07) r2 += -8 2: (b7) r1 = 0x0 3: (85) call 1 invalid indirect read from stack off -8+0 size 8
13.6 程序执行 map_lookup_elem()
传递了非法的 map_fd
BPF_ST_MEM(BPF_DW, BPF_REG_10, -8, 0), BPF_MOV64_REG(BPF_REG_2, BPF_REG_10), BPF_ALU64_IMM(BPF_ADD, BPF_REG_2, -8), BPF_LD_MAP_FD(BPF_REG_1, 0), BPF_RAW_INSN(BPF_JMP | BPF_CALL, 0, 0, 0, BPF_FUNC_map_lookup_elem), BPF_EXIT_INSN(),
Error:
0: (7a) *(u64 *)(r10 -8) = 0 1: (bf) r2 = r10 2: (07) r2 += -8 3: (b7) r1 = 0x0 4: (85) call 1 fd 0 is not pointing to valid bpf_map
13.7 程序未检查 map_lookup_elem()
的返回值是否为空就开始使用
BPF_ST_MEM(BPF_DW, BPF_REG_10, -8, 0), BPF_MOV64_REG(BPF_REG_2, BPF_REG_10), BPF_ALU64_IMM(BPF_ADD, BPF_REG_2, -8), BPF_LD_MAP_FD(BPF_REG_1, 0), BPF_RAW_INSN(BPF_JMP | BPF_CALL, 0, 0, 0, BPF_FUNC_map_lookup_elem), BPF_ST_MEM(BPF_DW, BPF_REG_0, 0, 0), BPF_EXIT_INSN(),
Error:
0: (7a) *(u64 *)(r10 -8) = 0 1: (bf) r2 = r10 2: (07) r2 += -8 3: (b7) r1 = 0x0 4: (85) call 1 5: (7a) *(u64 *)(r0 +0) = 0 R0 invalid mem access 'map_value_or_null'
13.8 程序访问 map 内容时使用了错误的字节对齐
程序虽然检查了 map_lookup_elem()
返回值是否为 NULL,但接下来使用了错误的对齐:
BPF_ST_MEM(BPF_DW, BPF_REG_10, -8, 0), BPF_MOV64_REG(BPF_REG_2, BPF_REG_10), BPF_ALU64_IMM(BPF_ADD, BPF_REG_2, -8), BPF_LD_MAP_FD(BPF_REG_1, 0), BPF_RAW_INSN(BPF_JMP | BPF_CALL, 0, 0, 0, BPF_FUNC_map_lookup_elem), BPF_JMP_IMM(BPF_JEQ, BPF_REG_0, 0, 1), BPF_ST_MEM(BPF_DW, BPF_REG_0, 4, 0), BPF_EXIT_INSN(),
Error:
0: (7a) *(u64 *)(r10 -8) = 0 1: (bf) r2 = r10 2: (07) r2 += -8 3: (b7) r1 = 1 4: (85) call 1 5: (15) if r0 == 0x0 goto pc+1 R0=map_ptr R10=fp 6: (7a) *(u64 *)(r0 +4) = 0 misaligned access off 4 size 8
13.9 程序在 fallthrough 分支中使用了错误的字节对齐访问 map 数据
程序检查了 map_lookup_elem()
返回值是否为 NULL,在 if
分支中使用了正确的字节对齐,
但在 fallthrough 分支中使用了错误的对齐:
BPF_ST_MEM(BPF_DW, BPF_REG_10, -8, 0), BPF_MOV64_REG(BPF_REG_2, BPF_REG_10), BPF_ALU64_IMM(BPF_ADD, BPF_REG_2, -8), BPF_LD_MAP_FD(BPF_REG_1, 0), BPF_RAW_INSN(BPF_JMP | BPF_CALL, 0, 0, 0, BPF_FUNC_map_lookup_elem), BPF_JMP_IMM(BPF_JEQ, BPF_REG_0, 0, 2), BPF_ST_MEM(BPF_DW, BPF_REG_0, 0, 0), BPF_EXIT_INSN(), BPF_ST_MEM(BPF_DW, BPF_REG_0, 0, 1), BPF_EXIT_INSN(),
Error:
0: (7a) *(u64 *)(r10 -8) = 0 1: (bf) r2 = r10 2: (07) r2 += -8 3: (b7) r1 = 1 4: (85) call 1 5: (15) if r0 == 0x0 goto pc+2 R0=map_ptr R10=fp 6: (7a) *(u64 *)(r0 +0) = 0 7: (95) exit from 5 to 8: R0=imm0 R10=fp 8: (7a) *(u64 *)(r0 +0) = 1 R0 invalid mem access 'imm'
13.10 程序执行 sk_lookup_tcp()
,未检查返回值就直接将其置 NULL
BPF_MOV64_IMM(BPF_REG_2, 0), BPF_STX_MEM(BPF_W, BPF_REG_10, BPF_REG_2, -8), BPF_MOV64_REG(BPF_REG_2, BPF_REG_10), BPF_ALU64_IMM(BPF_ADD, BPF_REG_2, -8), BPF_MOV64_IMM(BPF_REG_3, 4), BPF_MOV64_IMM(BPF_REG_4, 0), BPF_MOV64_IMM(BPF_REG_5, 0), BPF_EMIT_CALL(BPF_FUNC_sk_lookup_tcp), BPF_MOV64_IMM(BPF_REG_0, 0), BPF_EXIT_INSN(),
Error:
0: (b7) r2 = 0 1: (63) *(u32 *)(r10 -8) = r2 2: (bf) r2 = r10 3: (07) r2 += -8 4: (b7) r3 = 4 5: (b7) r4 = 0 6: (b7) r5 = 0 7: (85) call bpf_sk_lookup_tcp#65 8: (b7) r0 = 0 9: (95) exit Unreleased reference id=1, alloc_insn=7
这里的信息提示是 socket reference 未释放,说明 sk_lookup_tcp()
返回的是一个非空指针,
直接置空导致这个指针再也无法被解引用。
13.11 程序执行 sk_lookup_tcp()
但未检查返回值是否为空
BPF_MOV64_IMM(BPF_REG_2, 0), BPF_STX_MEM(BPF_W, BPF_REG_10, BPF_REG_2, -8), BPF_MOV64_REG(BPF_REG_2, BPF_REG_10), BPF_ALU64_IMM(BPF_ADD, BPF_REG_2, -8), BPF_MOV64_IMM(BPF_REG_3, 4), BPF_MOV64_IMM(BPF_REG_4, 0), BPF_MOV64_IMM(BPF_REG_5, 0), BPF_EMIT_CALL(BPF_FUNC_sk_lookup_tcp), BPF_EXIT_INSN(),
Error:
0: (b7) r2 = 0 1: (63) *(u32 *)(r10 -8) = r2 2: (bf) r2 = r10 3: (07) r2 += -8 4: (b7) r3 = 4 5: (b7) r4 = 0 6: (b7) r5 = 0 7: (85) call bpf_sk_lookup_tcp#65 8: (95) exit Unreleased reference id=1, alloc_insn=7
这里的信息提示是 socket reference 未释放,说明 sk_lookup_tcp()
返回的是一个非空指针,
直接置空导致这个指针再也无法被解引用。
14 测试(testing)
内核自带了一个 BPF 测试模块,覆盖了 cBPF 和 eBPF 的很多测试场景,能用来测试解释
器和 JIT 编译器。源码见 lib/test_bpf.c
,编译是 Kconfig 启用:
CONFIG_TEST_BPF=m
编译之后用 insmod
或 modprobe
加载 test_bpf
模块。
测试结果带有 ns
精度的时间戳日志,打印到内核日志( dmesg
查看)。
15 其他(misc)
Also trinity, the Linux syscall fuzzer, has built-in support for BPF and SECCOMP-BPF kernel fuzzing.
本文作者
The document was written in the hope that it is found useful and in order to give potential BPF hackers or security auditors a better overview of the underlying architecture.
- Jay Schulist [email protected]
- Daniel Borkmann [email protected]
- Alexei Starovoitov [email protected]
- [译] 写给工程师:关于证书(certificate)和公钥基础设施(PKI)的一切(SmallStep, 2018)
- [译] 基于角色的访问控制(RBAC):演进历史、设计理念及简洁实现(Tailscale, 2021)
- [译] Control Group v2(cgroupv2 权威指南)(KernelDoc, 2021)
- [译] Linux Socket Filtering (LSF, aka BPF)(KernelDoc,2021)
- [译] LLVM eBPF 汇编编程(2020)
- [译] Cilium:BPF 和 XDP 参考指南(2021)
- BPF 进阶笔记(三):BPF Map 内核实现
- BPF 进阶笔记(二):BPF Map 类型详解:使用场景、程序示例
- BPF 进阶笔记(一):BPF 程序类型详解:使用场景、函数签名、执行位置及程序示例
- 源码解析:K8s 创建 pod 时,背后发生了什么(四)(2021)
- 源码解析:K8s 创建 pod 时,背后发生了什么(三)(2021)
- [译] 迈向完全可编程 tc 分类器(NetdevConf,2016)
- [译] 云原生世界中的数据包标记(packet mark)(LPC, 2020)
- [译] 利用 eBPF 支撑大规模 K8s Service (LPC, 2019)
- 计算规模驱动下的网络方案演进
- 迈入 Cilium BGP 的云原生网络时代
- [译] BeyondProd:云原生安全的一种新方法(Google, 2019)