MIT 6.824 分布式系统 Lab 4B
这是一篇不太水的水文。
《分布式系统导论》课程做的 MIT 6.824 的最后一个实验 Lab 4B 终于做完了,过了除了 Challenge 1 以外的所有测试。这个实验挺坑的,虽然 Lab 2 的 Raft 也很难,但是毕竟是复现论文;Lab 4B 核心的东西必须完全自己设计。我在某一个晚上突然开窍,悟出了一个直观简洁的做法,先不管正确性,至少能够过掉测试;特地掏出大半年没更的博客记录下来。
Lab 4B 内容
在 Lab 2 实现的 Raft(不支持 reconfiguration)、Lab 3 实现的基于 Raft 的键值存储,以及 Lab 4A 实现的基于 Raft 的集群配置管理器的基础上,实现一个分片键值存储引擎(ShardKV)。
整个 ShardKV 管理 10 个分片,每个 key 固定映射到其中一个分片。这个系统由集群配置管理器(ShardCtrler) 和多个用于存储 KV pair 的 KVRaft 实例组成。每个 KVRaft 实例包含若干个 KVRaft 进程,每个 KVRaft 进程运行一个 Raft,一个 KVRaft 实例的 Raft 部分能够在内部实现共识,并保证架在上面的 KVRaft 进程之间处于一致的状态。
ShardCtrler 独立地接受集群配置更改请求,包括增加和删除 Raft 实例,以及分片在 Raft 实例间的移动。增加 Raft 实例时,已有 Raft 实例管理的部分分片需要进行移动,来实现负载均衡;删除时,被删除的 Raft 实例所管理的分片则要被移动回属于当前配置的那些 Raft 实例中。KVRaft 实例要监控集群配置的更新,并且在配置发生改变时执行分片的迁移。整个系统必须在共识容错的能力范围内实现可线性化(linearizable)。
这个东西的最大坑点就在于产生了 Raft 集群间的交互,而交互方式完全需要自己来想。
三状态协议
前置内容
- 每个客户端同一时间最多执行一个请求;
- 在 Lab 3 中,客户端请求被提交至 Raft 后,如果 Leader 崩溃,则客户端的这个请求可能被 commit 也可能不被 commit。因此,每个请求需要包含一个客户端 ID 和一个唯一的且单调递增的序列号,用来识别重复的请求;
- 在 Lab 4A 中,ShardCtrler 为每个集群配置都分配一个从 1 开始依次递增的序列号(0 是初始的空配置),并且保留完整的集群配置更改历史供 KVRaft 查询。
状态和状态转移路径
我们让每个 KVRaft 进程维护自身的一个状态 $S$,并且规定 $S$ 的取值范围:
$$ S \in \left{ \texttt{NORMAL}(n), \texttt{MIGRATING}(n), \texttt{WAITING}(n+1) \right}, n \in \mathbb{N} $$
其中,$n$ 表示了 KVRaft 进程当前使用的配置。由于仅有 Leader 可以服务客户端请求,因此 KVRaft Leader 的状态就可以视为整个 KVRaft 实例的状态,KVRaft Leader 状态中的 $n$ 就是整个 KVRaft 实例当前正使用的配置编号。
状态转移路径如下:
- 所有 KVRaft 初始时位于 $\texttt{NORMAL}(0)$ 状态;
- 从 $\texttt{NORMAL}(n)$ 可以转移到 $\texttt{MIGRATING}(n)$ 或者 $\texttt{WAITING}(n+1)$;
- 从 $\texttt{MIGRATING}(n)$ 可以转移到 $\texttt{WAITING}(n+1)$;
- 从 $\texttt{WAITING}(n)$ 可以转移到 $\texttt{NORMAL}(n)$。
显然,这个转移路径定义了状态集上的全序关系。在下面的表述中,如果我们对状态使用了“小于”“大于”之类的描述,即是在使用这一全序关系。
状态转移的发起和执行
- 位于 $\texttt{NORMAL}(n)$ 的 KVRaft Leader 在检测到 $n + 1$ 号配置时,向 Raft 提交
MIGRATE-TO(n+1)
并保持原状态不变; - 位于 $\texttt{NORMAL}(n)$ 的 KVRaft 进程在收到 Raft 向上 apply 的
MIGRATE-TO(n+1)
后转移到 $\texttt{MIGRATING}(n)$ 或者 $\texttt{WAITING}(n+1)$,取决于本次配置更新中当前 KVRaft 实例是否从其他 KVRaft 实例处得到了新的分片; - 位于 $\texttt{MIGRATING}(n)$ 的 KVRaft Leader 向其他 KVRaft 实例发 RPC 拉取对应的分片,并在收到分片后向 Raft 提交一个
MULTIPUT
; - 位于 $\texttt{MIGRATING}(n)$ 的 KVRaft 进程在收到 Raft 向上 apply 的
MULTIPUT
时,检查是否已经持有 $n + 1$ 号配置所需的全部分片,如果是则转移到 $\texttt{WAITING}(n+1)$; - 位于 $\texttt{WAITING}(n)$ 的 KVRaft 进程检查其他所有 KVRaft 实例所使用的配置编号。如果全部 KVRaft 实例至少使用 $n$ 号配置,那么转移到 $\texttt{NORMAL}(n)$。
实现细节
防止重复提交大量 MIGRATE-TO
和 MULTIPUT
KVRaft Leader 需要维护一个额外的标记 issued
,在当前状态为 $\texttt{NORMAL}$ 或者 $\texttt{MIGRATING}$ 时,判断是否已经提交了 MIGRATE-TO
或者已经开始从其他 KVRaft 实例拉取分片。
issued
不能被写进快照中,因为从崩溃中恢复的 KVRaft 进程可能需要重新提交 MIGRATE-TO
才能让它被 Raft 协议 commit。issued
应该在每次状态转移时被重置。
MIGRATE-TO
和 MULTIPUT
的处理
KVRaft 进程会自主检测新配置的出现并向 Raft 提交 MIGRATE-TO
消息,因此一个从崩溃中恢复的 KVRaft 进程可能会重复提交某些 MIGRATE-TO
;MULTIPUT
也完全同理。因此,只有第一个合法的 MIGRATE-TO
消息和 MULTIPUT
应该被接受,其余的则直接忽略。
从崩溃中恢复的 KVRaft 还可能在 $\texttt{WAITING}(n)$ 状态收到 Raft apply 上来的 MIGRATE-TO(n+1)
。这时,它应该原地等待直到系统前进至 $\texttt{NORMAL}(n)$。如果 KVRaft 有全局互斥锁,等待时需要放开这个锁。
可服务分片列表
KVRaft 始终维护一个当前可服务的分片列表,并仅仅以此为依据判断是否能服务客户端的某个请求。这个分片列表会在两个时刻被修改:
MIGRATE-TO(n+1)
被 apply 并且被接受时:仅保留那些在本次配置更新中继续由当前 KVRaft 实例负责的分片;MULTIPUT
被 apply 并且被接受时:在列表中加入该MULTIPUT
包含的那个分片。
这个列表同时可以用来对 MULTIPUT
去重。
拉取分片规则
当 KVRaft Leader 收到一个来自位于 $\texttt{MIGRATE}(n)$ 状态的其他 KVRaft 实例发来的拉取分片请求时,应该遵循以下规则:
- 如果自身处于某个小于 $\texttt{MIGRATE}(n)$ 的状态,则拒绝请求并要求对方重试;
- 如果自身处于某个大于 $\texttt{WAITING}(n+1)$ 的状态,则拒绝请求,对方也不应该再重试。
第二个规则事实上留有一些疑问,因为我不是这么实现的。我在实现时采用了进入 $\texttt{MIGRATE}(n)$ 时备份整个键值存储的做法。这样,第二条规则就可以变为:检查自己备份的键值存储所使用的配置编号,如果它大于等于 $n$,那么就拒绝请求,对方也不应该再重试。
跨配置更新的请求去重
在拉取分片时,应该同时拉取对方的整个去重用的数据结构(我的实现中为一个 map
),并且与本地的那个合并。
协议的容错
- 进程的崩溃和恢复由 Raft 直接保证,不需要额外考虑;
- 两个关键的状态转移 $\texttt{NORMAL}(n) \to \texttt{MIGRATE}(n)$ 和 $\texttt{MIGRATE}(n) \to \texttt{WAITING}(n+1)$ 都需要 Raft apply 相应消息,因此配置更新事件的发生一定是 Raft 实例内部已经达成了共识;
- 一个不在 majority 中的 KVRaft Leader 也有资格处理发来的拉取分片请求;这是因为如果它位于 $\texttt{MIGRATE}(n)$ 状态,那么根据上一条讨论,majority 一定也就进入 $\texttt{MIGRATE}(n)$ 状态达成了共识,它当前冻结的那些分片(即在 $n$ 号配置中拥有,但在 $n + 1$ 号配置中失去)必然也和 majority 一致,因此不需要在意它是否属于 majority。
对 Challenge 1 的讨论
Challenge 1 要求 KVRaft 进程如果失去某些分片的所有权,则应该在合适的时候删除这些分片。
完成 Challenge 1 意味着被拉取分片的 KVRaft Leader 需要得知另一个 KVRaft 实例将相应的 MULTIPUT
commit 的信息。感官上,这需要以下修改:
- 将拉取分片改为推送分片,或者改为拉取时直接返回,然后对方异步地进行一次推送;
- 推送完成后需要将一个
DELETE-SHARD
消息提交给 Raft,并在 apply 上来时执行删除操作; - 如果我在
DELETE-SHARD
提交之后就崩溃了,导致它没能 commit,新的 Leader 就需要去找对方再问一次,然后重新把它提交给 Raft。
这需要一定的代码量,所以我没有做。相比之下,Challenge 2 靠上面所说的可服务分片列表就能完美解决。