Raft: 尋找一種易於理解的一致性演算法(擴充套件版)

語言: CN / TW / HK

Raft 是一種為了管理複製日誌的一致性演算法。它提供了和 Paxos 演算法相同的功能和效能,但是它的演算法結構和 Paxos 不同,使得 Raft 演算法更加容易理解並且更容易構建實際的系統。為了提升可理解性,Raft 將一致性演算法分解成了幾個關鍵模組,例如領導人選舉、日誌複製和安全性。同時它通過實施一個更強的一致性來減少需要考慮的狀態的數量。一項使用者研究的結果表明,對於學生而言,Raft 演算法比 Paxos 演算法更加容易學習。Raft 演算法還包括一個新的機制來允許叢集成員的動態改變,它利用重疊的大多數來保證安全性。

1 介紹

一致性演算法允許一組機器像一個整體一樣工作,即使其中一些機器出現故障也能夠繼續工作下去。正因為如此,一致性演算法在構建可信賴的大規模軟體系統中扮演著重要的角色。在過去的 10 年裡,Paxos 演算法統治著一致性演算法這一領域:絕大多數的實現都是基於 Paxos 或者受其影響。同時 Paxos 也成為了教學領域裡講解一致性問題時的示例。

但是不幸的是,儘管有很多工作都在嘗試降低它的複雜性,但是 Paxos 演算法依然十分難以理解。並且,Paxos 自身的演算法結構需要進行大幅的修改才能夠應用到實際的系統中。因此工業界和學術界都對 Paxos 演算法感到十分頭疼。

努力研究過 Paxos 演算法之後,我們開始尋找一種新的一致性演算法,可以為構建實際的系統和教學提供更好的基礎。與 Paxos 不同,我們的首要目標是可理解性:我們是否可以在實際系統中定義一個一致性演算法,並且比 Paxos 演算法更容易學習。此外,我們希望該演算法方便系統構建者的直覺的發展。重要的不僅僅是演算法能夠工作,更重要的是能夠很清楚地知道它為什麼能工作。

Raft 一致性演算法就是這些工作的結果。在設計 Raft 演算法的時候,我們使用一些特別的技巧來提升它的可理解性,包括演算法分解(Raft 主要被分成了領導人選舉,日誌複製和安全三個模組)和減少狀態機的狀態(相對於 Paxos,Raft 減少了非確定性和伺服器互相處於非一致性的方式)。一份針對兩所大學 43 個學生的研究表明 Raft 明顯比 Paxos 演算法更加容易理解。在這些學生同時學習了這兩種演算法之後,和 Paxos 比起來,其中 33 個學生能夠回答有關於 Raft 的問題。

Raft 演算法在許多方面和現有的一致性演算法都很相似(主要是 Oki 和 Liskov 的 Viewstamped Replication),但是它也有一些獨特的特性:

  • 強領導人 :和其他一致性演算法相比,Raft 使用一種更強的領導能力形式。比如,日誌條目只從領導人傳送給其他的伺服器。這種方式簡化了對複製日誌的管理並且使得 Raft 演算法更加易於理解。
  • 領導選舉 :Raft 演算法使用一個隨機計時器來選舉領導人。這種方式只是在任何一致性演算法都必須實現的心跳機制上增加了一點機制。在解決衝突的時候會更加簡單快捷。
  • 成員關係調整 :Raft 使用一種共同一致的方法來處理叢集成員變換的問題,在這種方法下,處於調整過程中的兩種不同的配置叢集中大多數機器會有重疊,這就使得叢集在成員變換的時候依然可以繼續工作。

我們相信,Raft 演算法不論出於教學目的還是作為實踐專案的基礎都是要比 Paxos 或者其他一致性演算法要優異的。它比其他演算法更加簡單,更加容易理解;它的演算法描述足以實現一個現實的系統;它有好多開源的實現並且在很多公司裡使用;它的安全特性已經被正式定義和證明;它的效率和其他演算法比起來也不相上下。

接下來,這篇論文會介紹以下內容:複製狀態機問題(第 2 節),討論 Paxos 的優點和缺點(第 3 節),討論我們為了可理解性而採取的方法(第 4 節),闡述 Raft 一致性演算法(第 5-8 節),評價 Raft 演算法(第 9 節),以及一些相關的工作(第 10 節)。

2 複製狀態機

一致性演算法是從複製狀態機的背景下提出的(參考英文原文引用37)。在這種方法中,一組伺服器上的狀態機產生相同狀態的副本,並且在一些機器宕掉的情況下也可以繼續執行。複製狀態機在分散式系統中被用於解決很多容錯的問題。例如,大規模的系統中通常都有一個叢集領導人,像 GFS、HDFS 和 RAMCloud,典型應用就是一個獨立的複製狀態機去管理領導選舉和儲存配置資訊並且在領導人宕機的情況下也要存活下來。比如 Chubby 和 ZooKeeper。

圖 1 :複製狀態機的結構。一致性演算法管理著來自客戶端指令的複製日誌。狀態機從日誌中處理相同順序的相同指令,所以產生的結果也是相同的。

複製狀態機通常都是基於複製日誌實現的,如圖 1。每一個伺服器儲存一個包含一系列指令的日誌,並且按照日誌的順序進行執行。每一個日誌都按照相同的順序包含相同的指令,所以每一個伺服器都執行相同的指令序列。因為每個狀態機都是確定的,每一次執行操作都產生相同的狀態和同樣的序列。

一致性演算法的任務是保證複製日誌的一致性。伺服器上的一致性模組接收客戶端傳送的指令然後新增到自己的日誌中。它和其他伺服器上的一致性模組進行通訊來保證每一個伺服器上的日誌最終都以相同的順序包含相同的請求,即使有些伺服器發生故障。一旦指令被正確的複製,每一個伺服器的狀態機按照日誌順序處理他們,然後輸出結果被返回給客戶端。因此,伺服器叢集看起來形成了一個高可靠的狀態機。

實際系統中使用的一致性演算法通常含有以下特性:

  • 安全性保證(絕對不會返回一個錯誤的結果):在非拜占庭錯誤情況下,包括網路延遲、分割槽、丟包、重複和亂序等錯誤都可以保證正確。
  • 可用性:叢集中只要有大多數的機器可執行並且能夠相互通訊、和客戶端通訊,就可以保證可用。因此,一個典型的包含 5 個節點的叢集可以容忍兩個節點的失敗。伺服器被停止就認為是失敗。它們稍後可能會從可靠儲存的狀態中恢復並重新加入叢集。
  • 不依賴時序來保證一致性:物理時鐘錯誤或者極端的訊息延遲只有在最壞情況下才會導致可用性問題。
  • 通常情況下,一條指令可以儘可能快的在叢集中大多數節點響應一輪遠端過程呼叫時完成。小部分比較慢的節點不會影響系統整體的效能。

3 Paxos 演算法的問題

在過去的 10 年裡,Leslie Lamport 的 Paxos 演算法幾乎已經成為一致性的代名詞:Paxos 是在課程教學中最經常使用的演算法,同時也是大多數一致性演算法實現的起點。Paxos 首先定義了一個能夠達成單一決策一致的協議,比如單條的複製日誌項。我們把這一子集叫做單決策 Paxos。然後通過組合多個 Paxos 協議的例項來促進一系列決策的達成。Paxos 保證安全性和活性,同時也支援叢集成員關係的變更。Paxos 的正確性已經被證明,在通常情況下也很高效。

不幸的是,Paxos 有兩個明顯的缺點。第一個缺點是 Paxos 演算法特別的難以理解。完整的解釋是出了名的不透明;通過極大的努力之後,也只有少數人成功理解了這個演算法。因此,有了幾次用更簡單的術語來解釋 Paxos 的嘗試。儘管這些解釋都只關注了單決策的子集問題,但依然很具有挑戰性。在 2012 年 NSDI 的會議中的一次調查顯示,很少有人對 Paxos 演算法感到滿意,甚至在經驗老道的研究者中也是如此。我們自己也嘗試去理解 Paxos;我們一直沒能理解 Paxos 直到我們讀了很多對 Paxos 的簡化解釋並且設計了我們自己的演算法之後,這一過程花了近一年時間。

我們假設 Paxos 的不透明性來自它選擇單決策問題作為它的基礎。單決策 Paxos 是晦澀微妙的,它被劃分成了兩種沒有簡單直觀解釋和無法獨立理解的情景。因此,這導致了很難建立起直觀的感受為什麼單決策 Paxos 演算法能夠工作。構成多決策 Paxos 增加了很多錯綜複雜的規則。我們相信,在多決策上達成一致性的問題(一份日誌而不是單一的日誌記錄)能夠被分解成其他的方式並且更加直接和明顯。

Paxos演算法的第二個問題就是它沒有提供一個足夠好的用來構建一個現實系統的基礎。一個原因是還沒有一種被廣泛認同的多決策問題的演算法。Lamport 的描述基本上都是關於單決策 Paxos 的;他簡要描述了實施多決策 Paxos 的方法,但是缺乏很多細節。當然也有很多具體化 Paxos 的嘗試,但是他們都互相不一樣,和 Paxos 的概述也不同。例如 Chubby 這樣的系統實現了一個類似於 Paxos 的演算法,但是大多數的細節並沒有被公開。

而且,Paxos 演算法的結構也不是十分易於構建實踐的系統;單決策分解也會產生其他的結果。例如,獨立的選擇一組日誌條目然後合併成一個序列化的日誌並沒有帶來太多的好處,僅僅增加了不少複雜性。圍繞著日誌來設計一個系統是更加簡單高效的;新日誌條目以嚴格限制的順序增添到日誌中去。另一個問題是,Paxos 使用了一種對等的點對點的方式作為它的核心(儘管它最終提議了一種弱領導人的方法來優化效能)。在只有一個決策會被制定的簡化世界中是很有意義的,但是很少有現實的系統使用這種方式。如果有一系列的決策需要被制定,首先選擇一個領導人,然後讓他去協調所有的決議,會更加簡單快速。

因此,實際的系統中很少有和 Paxos 相似的實踐。每一種實現都是從 Paxos 開始研究,然後發現很多實現上的難題,再然後開發了一種和 Paxos 明顯不一樣的結構。這樣是非常費時和容易出錯的,並且理解 Paxos 的難度使得這個問題更加糟糕。Paxos 演算法在理論上被證明是正確可行的,但是現實的系統和 Paxos 差別是如此的大,以至於這些證明沒有什麼太大的價值。下面來自 Chubby 實現非常典型:

在Paxos演算法描述和實現現實系統中間有著巨大的鴻溝。最終的系統建立在一種沒有經過證明的演算法之上。

由於以上問題,我們認為 Paxos 演算法既沒有提供一個良好的基礎給實踐的系統,也沒有給教學很好的幫助。基於一致性問題在大規模軟體系統中的重要性,我們決定看看我們是否可以設計一個擁有更好特性的替代 Paxos 的一致性演算法。Raft 演算法就是這次實驗的結果。

4 為了可理解性的設計

設計 Raft 演算法我們有幾個初衷:它必須提供一個完整的實際的系統實現基礎,這樣才能大大減少開發者的工作;它必須在任何情況下都是安全的並且在大多數的情況下都是可用的;並且它的大部分操作必須是高效的。但是我們最重要也是最大的挑戰是可理解性。它必須保證對於普遍的人群都可以十分容易的去理解。另外,它必須能夠讓人形成直觀的認識,這樣系統的構建者才能夠在現實中進行必然的擴充套件。

在設計 Raft 演算法的時候,有很多的點需要我們在各種備選方案中進行選擇。在這種情況下,我們評估備選方案基於可理解性原則:解釋各個備選方案有多大的難度(例如,Raft 的狀態空間有多複雜,是否有微妙的暗示)?對於一個讀者而言,完全理解這個方案和暗示是否容易?

我們意識到對這種可理解性分析上具有高度的主觀性;儘管如此,我們使用了兩種通常適用的技術來解決這個問題。第一個技術就是眾所周知的問題分解:我們儘可能地將問題分解成幾個相對獨立的,可被解決的、可解釋的和可理解的子問題。例如,Raft 演算法被我們分成領導人選舉,日誌複製,安全性和成員變更幾個部分。

我們使用的第二個方法是通過減少狀態的數量來簡化需要考慮的狀態空間,使得系統更加連貫並且在可能的時候消除不確定性。特別的,所有的日誌是不允許有空洞的,並且 Raft 限制了日誌之間變成不一致狀態的可能。儘管在大多數情況下我們都試圖消除不確定性,但是也有一些情況下不確定性可以提升可理解性。尤其是,隨機化方法增加了不確定性,但是他們有利於減少狀態空間數量,通過處理所有可能選擇時使用相似的方法。我們使用隨機化來簡化 Raft 中領導人選舉演算法。

5 Raft 一致性演算法

Raft 是一種用來管理章節 2 中描述的複製日誌的演算法。圖 2 為了參考之用,總結這個演算法的簡略版本,圖 3 列舉了這個演算法的一些關鍵特性。圖中的這些元素會在剩下的章節逐一介紹。

Raft 通過選舉一個傑出的領導人,然後給予他全部的管理複製日誌的責任來實現一致性。領導人從客戶端接收日誌條目(log entries),把日誌條目複製到其他伺服器上,並告訴其他的伺服器什麼時候可以安全地將日誌條目應用到他們的狀態機中。擁有一個領導人大大簡化了對複製日誌的管理。例如,領導人可以決定新的日誌條目需要放在日誌中的什麼位置而不需要和其他伺服器商議,並且資料都從領導人流向其他伺服器。一個領導人可能會發生故障,或者和其他伺服器失去連線,在這種情況下一個新的領導人會被選舉出來。

通過領導人的方式,Raft 將一致性問題分解成了三個相對獨立的子問題,這些問題會在接下來的子章節中進行討論:

  • 領導選舉 :當現存的領導人發生故障的時候, 一個新的領導人需要被選舉出來(章節 5.2)
  • 日誌複製 :領導人必須從客戶端接收日誌條目(log entries)然後複製到叢集中的其他節點,並強制要求其他節點的日誌和自己保持一致。
  • 安全性 :在 Raft 中安全性的關鍵是在圖 3 中展示的狀態機安全:如果有任何的伺服器節點已經應用了一個確定的日誌條目到它的狀態機中,那麼其他伺服器節點不能在同一個日誌索引位置應用一個不同的指令。章節 5.4 闡述了 Raft 演算法是如何保證這個特性的;這個解決方案涉及到選舉機制(5.2 節)上的一個額外限制。

在展示一致性演算法之後,這一章節會討論一些可用性的問題和計時在系統中的作用。

狀態:

所有伺服器上的永續性狀態 (在響應 RPC 請求之前,已經更新到了穩定的儲存裝置) | 引數 | 解釋 | | — | — | | currentTerm | 伺服器已知最新的任期(在伺服器首次啟動時初始化為0,單調遞增)| | votedFor | 當前任期內收到選票的 candidateId,如果沒有投給任何候選人 則為空| | log[] | 日誌條目;每個條目包含了用於狀態機的命令,以及領導人接收到該條目時的任期(初始索引為1) |

所有伺服器上的易失性狀態 | 引數 | 解釋 | | — | — | | commitIndex | 已知已提交的最高的日誌條目的索引(初始值為0,單調遞增)| | lastApplied | 已經被應用到狀態機的最高的日誌條目的索引(初始值為0,單調遞增)|

領導人(伺服器)上的易失性狀態 (選舉後已經重新初始化) | 引數 | 解釋 | | — | — | | nextIndex[] | 對於每一臺伺服器,傳送到該伺服器的下一個日誌條目的索引(初始值為領導人最後的日誌條目的索引+1)| | matchIndex[] | 對於每一臺伺服器,已知的已經複製到該伺服器的最高日誌條目的索引(初始值為0,單調遞增)|

追加條目(AppendEntries)RPC:

由領導人呼叫,用於日誌條目的複製,同時也被當做心跳使用

引數 解釋
term 領導人的任期
leaderId 領導人 ID 因此跟隨者可以對客戶端進行重定向(譯者注:跟隨者根據領導人 ID 把客戶端的請求重定向到領導人,比如有時客戶端把請求發給了跟隨者而不是領導人)
prevLogIndex 緊鄰新日誌條目之前的那個日誌條目的索引
prevLogTerm 緊鄰新日誌條目之前的那個日誌條目的任期
entries[] 需要被儲存的日誌條目(被當做心跳使用時,則日誌條目內容為空;為了提高效率可能一次性發送多個)
leaderCommit 領導人的已知已提交的最高的日誌條目的索引
返回值 解釋
term 當前任期,對於領導人而言 它會更新自己的任期
success 如果跟隨者所含有的條目和 prevLogIndex 以及 prevLogTerm 匹配上了,則為 true

接收者的實現:

leaderCommit > commitIndex

請求投票(RequestVote)RPC:

由候選人負責呼叫用來徵集選票(5.2 節)

引數 解釋
term 候選人的任期號
candidateId 請求選票的候選人的 ID
lastLogIndex 候選人的最後日誌條目的索引值
lastLogTerm 候選人最後日誌條目的任期號
返回值 解釋
term 當前任期號,以便於候選人去更新自己的任期號
voteGranted 候選人贏得了此張選票時為真

接收者實現:

term < currentTerm

所有伺服器需遵守的規則:

所有伺服器:

  • 如果 commitIndex > lastApplied ,則 lastApplied 遞增,並將 log[lastApplied] 應用到狀態機中(5.3 節)
  • 如果接收到的 RPC 請求或響應中,任期號 T > currentTerm ,則令 currentTerm = T ,並切換為跟隨者狀態(5.1 節)

跟隨者(5.2 節):

  • 響應來自候選人和領導人的請求
  • 如果在超過選舉超時時間的情況之前沒有收到 當前領導人 (即該領導人的任期需與這個跟隨者的當前任期相同)的心跳/附加日誌,或者是給某個候選人投了票,就自己變成候選人

候選人(5.2 節):

  • 在轉變成候選人後就立即開始選舉過程
    • 自增當前的任期號(currentTerm)
    • 給自己投票
    • 重置選舉超時計時器
    • 傳送請求投票的 RPC 給其他所有伺服器
  • 如果接收到大多數伺服器的選票,那麼就變成領導人
  • 如果接收到來自新的領導人的附加日誌(AppendEntries)RPC,則轉變成跟隨者
  • 如果選舉過程超時,則再次發起一輪選舉

領導人:

  • 一旦成為領導人:傳送空的附加日誌(AppendEntries)RPC(心跳)給其他所有的伺服器;在一定的空餘時間之後不停的重複傳送,以防止跟隨者超時(5.2 節)
  • 如果接收到來自客戶端的請求:附加條目到本地日誌中,在條目被應用到狀態機後響應客戶端(5.3 節)
  • 如果對於一個跟隨者,最後日誌條目的索引值大於等於 nextIndex( lastLogIndex ≥ nextIndex ),則傳送從 nextIndex 開始的所有日誌條目:
    • 如果成功:更新相應跟隨者的 nextIndex 和 matchIndex
    • 如果因為日誌不一致而失敗,則 nextIndex 遞減並重試
  • 假設存在 N 滿足 N > commitIndex ,使得大多數的 matchIndex[i] ≥ N 以及 log[N].term == currentTerm 成立,則令 commitIndex = N (5.3 和 5.4 節)

圖 2:一個關於 Raft 一致性演算法的濃縮總結(不包括成員變換和日誌壓縮)。

特性 解釋
選舉安全特性 對於一個給定的任期號,最多隻會有一個領導人被選舉出來(5.2 節)
領導人只附加原則 領導人絕對不會刪除或者覆蓋自己的日誌,只會增加(5.3 節)
日誌匹配原則 如果兩個日誌在某一相同索引位置日誌條目的任期號相同,那麼我們就認為這兩個日誌從頭到該索引位置之間的內容完全一致(5.3 節)
領導人完全特性 如果某個日誌條目在某個任期號中已經被提交,那麼這個條目必然出現在更大任期號的所有領導人中(5.4 節)
狀態機安全特性 如果某一伺服器已將給定索引位置的日誌條目應用至其狀態機中,則其他任何伺服器在該索引位置不會應用不同的日誌條目(5.4.3 節)

圖 3:Raft 在任何時候都保證以上的各個特性。

5.1 Raft 基礎

一個 Raft 叢集包含若干個伺服器節點;5 個伺服器節點是一個典型的例子,這允許整個系統容忍 2 個節點失效。在任何時刻,每一個伺服器節點都處於這三個狀態之一:領導人、跟隨者或者候選人。在通常情況下,系統中只有一個領導人並且其他的節點全部都是跟隨者。跟隨者都是被動的:他們不會發送任何請求,只是簡單的響應來自領導人或者候選人的請求。領導人處理所有的客戶端請求(如果一個客戶端和跟隨者聯絡,那麼跟隨者會把請求重定向給領導人)。第三種狀態,候選人,是用來在 5.2 節描述的選舉新領導人時使用。圖 4 展示了這些狀態和他們之間的轉換關係;這些轉換關係會在接下來進行討論。

圖 4:伺服器狀態。跟隨者只響應來自其他伺服器的請求。如果跟隨者接收不到訊息,那麼他就會變成候選人併發起一次選舉。獲得叢集中大多數選票的候選人將成為領導人。在一個任期內,領導人一直都會是領導人,直到自己宕機了。

圖 5:時間被劃分成一個個的任期,每個任期開始都是一次選舉。在選舉成功後,領導人會管理整個叢集直到任期結束。有時候選舉會失敗,那麼這個任期就會沒有領導人而結束。任期之間的切換可以在不同的時間不同的伺服器上觀察到。

Raft 把時間分割成任意長度的 任期 ,如圖 5。任期用連續的整數標記。每一段任期從一次 選舉 開始,就像章節 5.2 描述的一樣,一個或者多個候選人嘗試成為領導人。如果一個候選人贏得選舉,然後他就在接下來的任期內充當領導人的職責。在某些情況下,一次選舉過程會造成選票的瓜分。在這種情況下,這一任期會以沒有領導人結束;一個新的任期(和一次新的選舉)會很快重新開始。Raft 保證了在一個給定的任期內,最多隻有一個領導人。

不同的伺服器節點可能多次觀察到任期之間的轉換,但在某些情況下,一個節點也可能觀察不到任何一次選舉或者整個任期全程。任期在 Raft 演算法中充當邏輯時鐘的作用,任期使得伺服器可以檢測一些過期的資訊:比如過期的領導人。每個節點儲存一個當前任期號,這一編號在整個時期內單調遞增。每當伺服器之間通訊的時候都會交換當前任期號;如果一個伺服器的當前任期號比其他人小,那麼他會更新自己的編號到較大的編號值。如果一個候選人或者領導人發現自己的任期號過期了,那麼他會立即恢復成跟隨者狀態。如果一個節點接收到一個包含過期的任期號的請求,那麼他會直接拒絕這個請求。

Raft 演算法中伺服器節點之間通訊使用遠端過程呼叫(RPCs),並且基本的一致性演算法只需要兩種型別的 RPCs。請求投票(RequestVote) RPCs 由候選人在選舉期間發起(章節 5.2),然後附加條目(AppendEntries)RPCs 由領導人發起,用來複制日誌和提供一種心跳機制(章節 5.3)。第 7 節為了在伺服器之間傳輸快照增加了第三種 RPC。當伺服器沒有及時的收到 RPC 的響應時,會進行重試, 並且他們能夠並行的發起 RPCs 來獲得最佳的效能。

5.2 領導人選舉

Raft 使用一種心跳機制來觸發領導人選舉。當伺服器程式啟動時,他們都是跟隨者身份。一個伺服器節點繼續保持著跟隨者狀態只要他從領導人或者候選人處接收到有效的 RPCs。領導人週期性的向所有跟隨者傳送心跳包(即不包含日誌項內容的附加條目(AppendEntries) RPCs)來維持自己的權威。如果一個跟隨者在一段時間裡沒有接收到任何訊息,也就是 選舉超時 ,那麼他就會認為系統中沒有可用的領導人,並且發起選舉以選出新的領導人。

要開始一次選舉過程,跟隨者先要增加自己的當前任期號並且轉換到候選人狀態。然後他會並行的向叢集中的其他伺服器節點發送請求投票的 RPCs 來給自己投票。候選人會繼續保持著當前狀態直到以下三件事情之一發生:(a) 他自己贏得了這次的選舉,(b) 其他的伺服器成為領導人,(c) 一段時間之後沒有任何一個獲勝的人。這些結果會分別的在下面的段落裡進行討論。

當一個候選人從整個叢集的大多數伺服器節點獲得了針對同一個任期號的選票,那麼他就贏得了這次選舉併成為領導人。每一個伺服器最多會對一個任期號投出一張選票,按照先來先服務的原則(注意:5.4 節在投票上增加了一點額外的限制)。要求大多數選票的規則確保了最多隻會有一個候選人贏得此次選舉(圖 3 中的選舉安全性)。一旦候選人贏得選舉,他就立即成為領導人。然後他會向其他的伺服器傳送心跳訊息來建立自己的權威並且阻止新的領導人的產生。

在等待投票的時候,候選人可能會從其他的伺服器接收到宣告它是領導人的附加條目(AppendEntries)RPC。如果這個領導人的任期號(包含在此次的 RPC中)不小於候選人當前的任期號,那麼候選人會承認領導人合法並回到跟隨者狀態。 如果此次 RPC 中的任期號比自己小,那麼候選人就會拒絕這次的 RPC 並且繼續保持候選人狀態。

第三種可能的結果是候選人既沒有贏得選舉也沒有輸:如果有多個跟隨者同時成為候選人,那麼選票可能會被瓜分以至於沒有候選人可以贏得大多數人的支援。當這種情況發生的時候,每一個候選人都會超時,然後通過增加當前任期號來開始一輪新的選舉。然而,沒有其他機制的話,選票可能會被無限的重複瓜分。

Raft 演算法使用隨機選舉超時時間的方法來確保很少會發生選票瓜分的情況,就算髮生也能很快的解決。為了阻止選票起初就被瓜分,選舉超時時間是從一個固定的區間(例如 150-300 毫秒)隨機選擇。這樣可以把伺服器都分散開以至於在大多數情況下只有一個伺服器會選舉超時;然後他贏得選舉並在其他伺服器超時之前傳送心跳包。同樣的機制被用在選票瓜分的情況下。每一個候選人在開始一次選舉的時候會重置一個隨機的選舉超時時間,然後在超時時間內等待投票的結果;這樣減少了在新的選舉中另外的選票瓜分的可能性。9.3 節展示了這種方案能夠快速的選出一個領導人。

領導人選舉這個例子,體現了可理解性原則是如何指導我們進行方案設計的。起初我們計劃使用一種排名系統:每一個候選人都被賦予一個唯一的排名,供候選人之間競爭時進行選擇。如果一個候選人發現另一個候選人擁有更高的排名,那麼他就會回到跟隨者狀態,這樣高排名的候選人能夠更加容易的贏得下一次選舉。但是我們發現這種方法在可用性方面會有一點問題(如果高排名的伺服器宕機了,那麼低排名的伺服器可能會超時並再次進入候選人狀態。而且如果這個行為發生得足夠快,則可能會導致整個選舉過程都被重置掉)。我們針對演算法進行了多次調整,但是每次調整之後都會有新的問題。最終我們認為隨機重試的方法是更加明顯和易於理解的。

5.3 日誌複製

一旦一個領導人被選舉出來,他就開始為客戶端提供服務。客戶端的每一個請求都包含一條被複制狀態機執行的指令。領導人把這條指令作為一條新的日誌條目附加到日誌中去,然後並行的發起附加條目 RPCs 給其他的伺服器,讓他們複製這條日誌條目。當這條日誌條目被安全的複製(下面會介紹),領導人會應用這條日誌條目到它的狀態機中然後把執行的結果返回給客戶端。如果跟隨者崩潰或者執行緩慢,再或者網路丟包,領導人會不斷的重複嘗試附加日誌條目 RPCs (儘管已經回覆了客戶端)直到所有的跟隨者都最終儲存了所有的日誌條目。

圖 6:日誌由有序序號標記的條目組成。每個條目都包含建立時的任期號(圖中框中的數字),和一個狀態機需要執行的指令。一個條目當可以安全的被應用到狀態機中去的時候,就認為是可以提交了。

日誌以圖 6 展示的方式組織。每一個日誌條目儲存一條狀態機指令和從領導人收到這條指令時的任期號。日誌中的任期號用來檢查是否出現不一致的情況,同時也用來保證圖 3 中的某些性質。每一條日誌條目同時也都有一個整數索引值來表明它在日誌中的位置。

領導人來決定什麼時候把日誌條目應用到狀態機中是安全的;這種日誌條目被稱為 已提交 。Raft 演算法保證所有已提交的日誌條目都是持久化的並且最終會被所有可用的狀態機執行。在領導人將建立的日誌條目複製到大多數的伺服器上的時候,日誌條目就會被提交(例如在圖 6 中的條目 7)。同時,領導人的日誌中之前的所有日誌條目也都會被提交,包括由其他領導人建立的條目。5.4 節會討論某些當在領導人改變之後應用這條規則的隱晦內容,同時他也展示了這種提交的定義是安全的。領導人跟蹤了最大的將會被提交的日誌項的索引,並且索引值會被包含在未來的所有附加日誌 RPCs (包括心跳包),這樣其他的伺服器才能最終知道領導人的提交位置。一旦跟隨者知道一條日誌條目已經被提交,那麼他也會將這個日誌條目應用到本地的狀態機中(按照日誌的順序)。

我們設計了 Raft 的日誌機制來維護一個不同伺服器的日誌之間的高層次的一致性。這麼做不僅簡化了系統的行為也使得更加可預計,同時他也是安全性保證的一個重要元件。Raft 維護著以下的特性,這些同時也組成了圖 3 中的日誌匹配特性:

  • 如果在不同的日誌中的兩個條目擁有相同的索引和任期號,那麼他們儲存了相同的指令。
  • 如果在不同的日誌中的兩個條目擁有相同的索引和任期號,那麼他們之前的所有日誌條目也全部相同。

第一個特性來自這樣的一個事實,領導人最多在一個任期裡在指定的一個日誌索引位置建立一條日誌條目,同時日誌條目在日誌中的位置也從來不會改變。第二個特性由附加日誌 RPC 的一個簡單的一致性檢查所保證。在傳送附加日誌 RPC 的時候,領導人會把新的日誌條目緊接著之前的條目的索引位置和任期號包含在裡面。如果跟隨者在它的日誌中找不到包含相同索引位置和任期號的條目,那麼他就會拒絕接收新的日誌條目。一致性檢查就像一個歸納步驟:一開始空的日誌狀態肯定是滿足日誌匹配特性的,然後一致性檢查在日誌擴充套件的時候保護了日誌匹配特性。因此,每當附加日誌 RPC 返回成功時,領導人就知道跟隨者的日誌一定是和自己相同的了。

在正常的操作中,領導人和跟隨者的日誌保持一致性,所以附加日誌 RPC 的一致性檢查從來不會失敗。然而,領導人崩潰的情況會使得日誌處於不一致的狀態(老的領導人可能還沒有完全複製所有的日誌條目)。這種不一致問題會在領導人和跟隨者的一系列崩潰下加劇。圖 7 展示了跟隨者的日誌可能和新的領導人不同。跟隨者可能會丟失一些在新的領導人中存在的日誌條目,他也可能擁有一些領導人沒有的日誌條目,或者兩者都發生。丟失或者多出日誌條目可能會持續多個任期。

圖 7:當一個領導人成功當選時,跟隨者可能是任何情況(a-f)。每一個盒子表示是一個日誌條目;裡面的數字表示任期號。跟隨者可能會缺少一些日誌條目(a-b),可能會有一些未被提交的日誌條目(c-d),或者兩種情況都存在(e-f)。例如,場景 f 可能會這樣發生,某伺服器在任期 2 的時候是領導人,已附加了一些日誌條目到自己的日誌中,但在提交之前就崩潰了;很快這個機器就被重啟了,在任期 3 重新被選為領導人,並且又增加了一些日誌條目到自己的日誌中;在任期 2 和任期 3 的日誌被提交之前,這個伺服器又宕機了,並且在接下來的幾個任期裡一直處於宕機狀態。

在 Raft 演算法中,領導人處理不一致是通過強制跟隨者直接複製自己的日誌來解決了。這意味著在跟隨者中的衝突的日誌條目會被領導人的日誌覆蓋。5.4 節會闡述如何通過增加一些限制來使得這樣的操作是安全的。

要使得跟隨者的日誌進入和自己一致的狀態,領導人必須找到最後兩者達成一致的地方,然後刪除從那個點之後的所有日誌條目,傳送自己的日誌給跟隨者。所有的這些操作都在進行附加日誌 RPCs 的一致性檢查時完成。領導人針對每一個跟隨者維護了一個 nextIndex ,這表示下一個需要傳送給跟隨者的日誌條目的索引地址。當一個領導人剛獲得權力的時候,他初始化所有的 nextIndex 值為自己的最後一條日誌的 index 加 1(圖 7 中的 11)。如果一個跟隨者的日誌和領導人不一致,那麼在下一次的附加日誌 RPC 時的一致性檢查就會失敗。在被跟隨者拒絕之後,領導人就會減小 nextIndex 值並進行重試。最終 nextIndex 會在某個位置使得領導人和跟隨者的日誌達成一致。當這種情況發生,附加日誌 RPC 就會成功,這時就會把跟隨者衝突的日誌條目全部刪除並且加上領導人的日誌。一旦附加日誌 RPC 成功,那麼跟隨者的日誌就會和領導人保持一致,並且在接下來的任期裡一直繼續保持。

如果需要的話,演算法可以通過減少被拒絕的附加日誌 RPCs 的次數來優化。例如,當附加日誌 RPC 的請求被拒絕的時候,跟隨者可以(返回)衝突條目的任期號和該任期號對應的最小索引地址。藉助這些資訊,領導人可以減小 nextIndex 一次性越過該衝突任期的所有日誌條目;這樣就變成每個任期需要一次附加條目 RPC 而不是每個條目一次。在實踐中,我們十分懷疑這種優化是否是必要的,因為失敗是很少發生的並且也不大可能會有這麼多不一致的日誌。

通過這種機制,領導人在獲得權力的時候就不需要任何特殊的操作來恢復一致性。他只需要進行正常的操作,然後日誌就能自動的在回覆附加日誌 RPC 的一致性檢查失敗的時候自動趨於一致。領導人從來不會覆蓋或者刪除自己的日誌(圖 3 的領導人只附加特性)。

日誌複製機制展示出了第 2 節中形容的一致性特性:Raft 能夠接受,複製並應用新的日誌條目只要大部分的機器是工作的;在通常的情況下,新的日誌條目可以在一次 RPC 中被複制給叢集中的大多數機器;並且單個的緩慢的跟隨者不會影響整體的效能。

5.4 安全性

前面的章節裡描述了 Raft 演算法是如何選舉和複製日誌的。然而,到目前為止描述的機制並不能充分的保證每一個狀態機會按照相同的順序執行相同的指令。例如,一個跟隨者可能會進入不可用狀態同時領導人已經提交了若干的日誌條目,然後這個跟隨者可能會被選舉為領導人並且覆蓋這些日誌條目;因此,不同的狀態機可能會執行不同的指令序列。

這一節通過在領導選舉的時候增加一些限制來完善 Raft 演算法。這一限制保證了任何的領導人對於給定的任期號,都擁有了之前任期的所有被提交的日誌條目(圖 3 中的領導人完整特性)。增加這一選舉時的限制,我們對於提交時的規則也更加清晰。最終,我們將展示對於領導人完整特性的簡要證明,並且說明領導人完整性特性是如何引導複製狀態機做出正確行為的。

5.4.1 選舉限制

在任何基於領導人的一致性演算法中,領導人都必須儲存所有已經提交的日誌條目。在某些一致性演算法中,例如 Viewstamped Replication,某個節點即使是一開始並沒有包含所有已經提交的日誌條目,它也能被選為領導人。這些演算法都包含一些額外的機制來識別丟失的日誌條目並把他們傳送給新的領導人,要麼是在選舉階段要麼在之後很快進行。不幸的是,這種方法會導致相當大的額外的機制和複雜性。Raft 使用了一種更加簡單的方法,它可以保證所有之前的任期號中已經提交的日誌條目在選舉的時候都會出現在新的領導人中,不需要傳送這些日誌條目給領導人。這意味著日誌條目的傳送是單向的,只從領導人傳給跟隨者,並且領導人從不會覆蓋自身本地日誌中已經存在的條目。

Raft 使用投票的方式來阻止一個候選人贏得選舉除非這個候選人包含了所有已經提交的日誌條目。候選人為了贏得選舉必須聯絡叢集中的大部分節點,這意味著每一個已經提交的日誌條目在這些伺服器節點中肯定存在於至少一個節點上。如果候選人的日誌至少和大多數的伺服器節點一樣新(這個新的定義會在下面討論),那麼他一定持有了所有已經提交的日誌條目。請求投票 RPC 實現了這樣的限制:RPC 中包含了候選人的日誌資訊,然後投票人會拒絕掉那些日誌沒有自己新的投票請求。

Raft 通過比較兩份日誌中最後一條日誌條目的索引值和任期號定義誰的日誌比較新。如果兩份日誌最後的條目的任期號不同,那麼任期號大的日誌更加新。如果兩份日誌最後的條目任期號相同,那麼日誌比較長的那個就更加新。

5.4.2 提交之前任期內的日誌條目

如同 5.3 節介紹的那樣,領導人知道一條當前任期內的日誌記錄是可以被提交的,只要它被儲存到了大多數的伺服器上。如果一個領導人在提交日誌條目之前崩潰了,未來後續的領導人會繼續嘗試複製這條日誌記錄。然而,一個領導人不能斷定一個之前任期裡的日誌條目被儲存到大多數伺服器上的時候就一定已經提交了。圖 8 展示了一種情況,一條已經被儲存到大多數節點上的老日誌條目,也依然有可能會被未來的領導人覆蓋掉。

圖 8:如圖的時間序列展示了為什麼領導人無法決定對老任期號的日誌條目進行提交。在 (a) 中,S1 是領導人,部分的(跟隨者)複製了索引位置 2 的日誌條目。在 (b) 中,S1 崩潰了,然後 S5 在任期 3 裡通過 S3、S4 和自己的選票贏得選舉,然後從客戶端接收了一條不一樣的日誌條目放在了索引 2 處。然後到 (c),S5 又崩潰了;S1 重新啟動,選舉成功,開始複製日誌。在這時,來自任期 2 的那條日誌已經被複制到了叢集中的大多數機器上,但是還沒有被提交。如果 S1 在 (d) 中又崩潰了,S5 可以重新被選舉成功(通過來自 S2,S3 和 S4 的選票),然後覆蓋了他們在索引 2 處的日誌。反之,如果在崩潰之前,S1 把自己主導的新任期裡產生的日誌條目複製到了大多數機器上,就如 (e) 中那樣,那麼在後面任期裡面這些新的日誌條目就會被提交(因為 S5 就不可能選舉成功)。 這樣在同一時刻就同時保證了,之前的所有老的日誌條目就會被提交。

為了消除圖 8 裡描述的情況,Raft 永遠不會通過計算副本數目的方式去提交一個之前任期內的日誌條目。只有領導人當前任期裡的日誌條目通過計算副本數目可以被提交;一旦當前任期的日誌條目以這種方式被提交,那麼由於日誌匹配特性,之前的日誌條目也都會被間接的提交。在某些情況下,領導人可以安全的知道一個老的日誌條目是否已經被提交(例如,該條目是否儲存到所有伺服器上),但是 Raft 為了簡化問題使用一種更加保守的方法。

當領導人複製之前任期裡的日誌時,Raft 會為所有日誌保留原始的任期號, 這在提交規則上產生了額外的複雜性。在其他的一致性演算法中,如果一個新的領導人要重新複製之前的任期裡的日誌時,它必須使用當前新的任期號。Raft 使用的方法更加容易辨別出日誌,因為它可以隨著時間和日誌的變化對日誌維護著同一個任期編號。另外,和其他的演算法相比,Raft 中的新領導人只需要傳送更少日誌條目(其他演算法中必須在他們被提交之前傳送更多的冗餘日誌條目來為他們重新編號)。

5.4.3 安全性論證

在給定了完整的 Raft 演算法之後,我們現在可以更加精確的討論領導人完整性特性(這一討論基於 9.2 節的安全性證明)。我們假設領導人完全性特性是不存在的,然後我們推出矛盾來。假設任期 T 的領導人(領導人 T)在任期內提交了一條日誌條目,但是這條日誌條目沒有被儲存到未來某個任期的領導人的日誌中。設大於 T 的最小任期 U 的領導人 U 沒有這條日誌條目。

圖 9:如果 S1 (任期 T 的領導人)提交了一條新的日誌在它的任期裡,然後 S5 在之後的任期 U 裡被選舉為領導人,然後至少會有一個機器,如 S3,既擁有來自 S1 的日誌,也給 S5 投票了。

  1. 在領導人 U 選舉的時候一定沒有那條被提交的日誌條目(領導人從不會刪除或者覆蓋任何條目)。
  2. 領導人 T 複製這條日誌條目給叢集中的大多數節點,同時,領導人 U 從叢集中的大多數節點贏得了選票。因此,至少有一個節點(投票者、選民)同時接受了來自領導人 T 的日誌條目,並且給領導人 U 投票了,如圖 9。這個投票者是產生這個矛盾的關鍵。
  3. 這個投票者必須在給領導人 U 投票之前先接受了從領導人 T 發來的已經被提交的日誌條目;否則他就會拒絕來自領導人 T 的附加日誌請求(因為此時他的任期號會比 T 大)。
  4. 投票者在給領導人 U 投票時依然儲存有這條日誌條目,因為任何中間的領導人都包含該日誌條目(根據上述的假設),領導人從不會刪除條目,並且跟隨者只有在和領導人衝突的時候才會刪除條目。
  5. 投票者把自己選票投給領導人 U 時,領導人 U 的日誌必須和投票者自己一樣新。這就導致了兩者矛盾之一。
  6. 首先,如果投票者和領導人 U 的最後一條日誌的任期號相同,那麼領導人 U 的日誌至少和投票者一樣長,所以領導人 U 的日誌一定包含所有投票者的日誌。這是另一處矛盾,因為投票者包含了那條已經被提交的日誌條目,但是在上述的假設裡,領導人 U 是不包含的。
  7. 除此之外,領導人 U 的最後一條日誌的任期號就必須比投票人大了。此外,他也比 T 大,因為投票人的最後一條日誌的任期號至少和 T 一樣大(他包含了來自任期 T 的已提交的日誌)。建立了領導人 U 最後一條日誌的之前領導人一定已經包含了那條被提交的日誌(根據上述假設,領導人 U 是第一個不包含該日誌條目的領導人)。所以,根據日誌匹配特性,領導人 U 一定也包含那條被提交的日誌,這裡產生矛盾。
  8. 這裡完成了矛盾。因此,所有比 T 大的領導人一定包含了所有來自 T 的已經被提交的日誌。
  9. 日誌匹配原則保證了未來的領導人也同時會包含被間接提交的條目,例如圖 8 (e) 中的索引 2。

通過領導人完全特性,我們就能證明圖 3 中的狀態機安全特性,即如果伺服器已經在某個給定的索引值應用了日誌條目到自己的狀態機裡,那麼其他的伺服器不會應用一個不一樣的日誌到同一個索引值上。在一個伺服器應用一條日誌條目到他自己的狀態機中時,他的日誌必須和領導人的日誌,在該條目和之前的條目上相同,並且已經被提交。現在我們來考慮在任何一個伺服器應用一個指定索引位置的日誌的最小任期;日誌完全特性保證擁有更高任期號的領導人會儲存相同的日誌條目,所以之後的任期裡應用某個索引位置的日誌條目也會是相同的值。因此,狀態機安全特性是成立的。

最後,Raft 要求伺服器按照日誌中索引位置順序應用日誌條目。和狀態機安全特性結合起來看,這就意味著所有的伺服器會應用相同的日誌序列集到自己的狀態機中,並且是按照相同的順序。

5.5 跟隨者和候選人崩潰

到目前為止,我們都只關注了領導人崩潰的情況。跟隨者和候選人崩潰後的處理方式比領導人要簡單的多,並且他們的處理方式是相同的。如果跟隨者或者候選人崩潰了,那麼後續傳送給他們的 RPCs 都會失敗。Raft 中處理這種失敗就是簡單的通過無限的重試;如果崩潰的機器重啟了,那麼這些 RPC 就會完整的成功。如果一個伺服器在完成了一個 RPC,但是還沒有響應的時候崩潰了,那麼在他重新啟動之後就會再次收到同樣的請求。Raft 的 RPCs 都是冪等的,所以這樣重試不會造成任何問題。例如一個跟隨者如果收到附加日誌請求但是他已經包含了這一日誌,那麼他就會直接忽略這個新的請求。

5.6 時間和可用性

Raft 的要求之一就是安全性不能依賴時間:整個系統不能因為某些事件執行的比預期快一點或者慢一點就產生了錯誤的結果。但是,可用性(系統可以及時的響應客戶端)不可避免的要依賴於時間。例如,如果訊息交換比伺服器故障間隔時間長,候選人將沒有足夠長的時間來贏得選舉;沒有一個穩定的領導人,Raft 將無法工作。

領導人選舉是 Raft 中對時間要求最為關鍵的方面。Raft 可以選舉並維持一個穩定的領導人,只要系統滿足下面的時間要求:

廣播時間(broadcastTime) «  選舉超時時間(electionTimeout) «  平均故障間隔時間(MTBF)

在這個不等式中,廣播時間指的是從一個伺服器並行的傳送 RPCs 給叢集中的其他伺服器並接收響應的平均時間;選舉超時時間就是在 5.2 節中介紹的選舉的超時時間限制;然後平均故障間隔時間就是對於一臺伺服器而言,兩次故障之間的平均時間。廣播時間必須比選舉超時時間小一個量級,這樣領導人才能夠傳送穩定的心跳訊息來阻止跟隨者開始進入選舉狀態;通過隨機化選舉超時時間的方法,這個不等式也使得選票瓜分的情況變得不可能。選舉超時時間應該要比平均故障間隔時間小上幾個數量級,這樣整個系統才能穩定的執行。當領導人崩潰後,整個系統會大約相當於選舉超時的時間裡不可用;我們希望這種情況在整個系統的執行中很少出現。

廣播時間和平均故障間隔時間是由系統決定的,但是選舉超時時間是我們自己選擇的。Raft 的 RPCs 需要接收方將資訊持久化的儲存到穩定儲存中去,所以廣播時間大約是 0.5 毫秒到 20 毫秒,取決於儲存的技術。因此,選舉超時時間可能需要在 10 毫秒到 500 毫秒之間。大多數的伺服器的平均故障間隔時間都在幾個月甚至更長,很容易滿足時間的需求。

6 叢集成員變化

到目前為止,我們都假設叢集的配置(加入到一致性演算法的伺服器集合)是固定不變的。但是在實踐中,偶爾是會改變叢集的配置的,例如替換那些宕機的機器或者改變複製級別。儘管可以通過暫停整個叢集,更新所有配置,然後重啟整個叢集的方式來實現,但是在更改的時候叢集會不可用。另外,如果存在手工操作步驟,那麼就會有操作失誤的風險。為了避免這樣的問題,我們決定自動化配置改變並且將其納入到 Raft 一致性演算法中來。

為了讓配置修改機制能夠安全,那麼在轉換的過程中不能夠存在任何時間點使得兩個領導人同時被選舉成功在同一個任期裡。不幸的是,任何伺服器直接從舊的配置直接轉換到新的配置的方案都是不安全的。一次性原子地轉換所有伺服器是不可能的,所以在轉換期間整個叢集存在劃分成兩個獨立的大多數群體的可能性(見圖 10)。

圖 10:直接從一種配置轉到新的配置是十分不安全的,因為各個機器可能在任何的時候進行轉換。在這個例子中,叢集配額從 3 臺機器變成了 5 臺。不幸的是,存在這樣的一個時間點,兩個不同的領導人在同一個任期裡都可以被選舉成功。一個是通過舊的配置,一個通過新的配置。

為了保證安全性,配置更改必須使用兩階段方法。目前有很多種兩階段的實現。例如,有些系統在第一階段停掉舊的配置所以叢集就不能處理客戶端請求;然後在第二階段在啟用新的配置。在 Raft 中,叢集先切換到一個過渡的配置,我們稱之為共同一致;一旦共同一致已經被提交了,那麼系統就切換到新的配置上。共同一致是老配置和新配置的結合:

  • 日誌條目被複制給叢集中新、老配置的所有伺服器。
  • 新、舊配置的伺服器都可以成為領導人。
  • 達成一致(針對選舉和提交)需要分別在兩種配置上獲得大多數的支援。

共同一致允許獨立的伺服器在不影響安全性的前提下,在不同的時間進行配置轉換過程。此外,共同一致可以讓叢集在配置轉換的過程中依然響應客戶端的請求。

叢集配置在複製日誌中以特殊的日誌條目來儲存和通訊;圖 11 展示了配置轉換的過程。當一個領導人接收到一個改變配置從 C-old 到 C-new 的請求,他會為了共同一致儲存配置(圖中的 C-old,new),以前面描述的日誌條目和副本的形式。一旦一個伺服器將新的配置日誌條目增加到它的日誌中,他就會用這個配置來做出未來所有的決定(伺服器總是使用最新的配置,無論他是否已經被提交)。這意味著領導人要使用 C-old,new 的規則來決定日誌條目 C-old,new 什麼時候需要被提交。如果領導人崩潰了,被選出來的新領導人可能是使用 C-old 配置也可能是 C-old,new 配置,這取決於贏得選舉的候選人是否已經接收到了 C-old,new 配置。在任何情況下, C-new 配置在這一時期都不會單方面的做出決定。

一旦 C-old,new 被提交,那麼無論是 C-old 還是 C-new,在沒有經過他人批准的情況下都不可能做出決定,並且領導人完全特性保證了只有擁有 C-old,new 日誌條目的伺服器才有可能被選舉為領導人。這個時候,領導人建立一條關於 C-new 配置的日誌條目並複製給叢集就是安全的了。再者,每個伺服器在見到新的配置的時候就會立即生效。當新的配置在 C-new 的規則下被提交,舊的配置就變得無關緊要,同時不使用新的配置的伺服器就可以被關閉了。如圖 11,C-old 和 C-new 沒有任何機會同時做出單方面的決定;這保證了安全性。

圖 11:一個配置切換的時間線。虛線表示已經被建立但是還沒有被提交的配置日誌條目,實線表示最後被提交的配置日誌條目。領導人首先建立了 C-old,new 的配置條目在自己的日誌中,並提交到 C-old,new 中(C-old 的大多數和 C-new 的大多數)。然後他建立 C-new 條目並提交到 C-new 中的大多數。這樣就不存在 C-new 和 C-old 可以同時做出決定的時間點。

在關於重新配置還有三個問題需要提出。第一個問題是,新的伺服器可能初始化沒有儲存任何的日誌條目。當這些伺服器以這種狀態加入到叢集中,那麼他們需要一段時間來更新追趕,這時還不能提交新的日誌條目。為了避免這種可用性的間隔時間,Raft 在配置更新之前使用了一種額外的階段,在這個階段,新的伺服器以沒有投票權身份加入到叢集中來(領導人複製日誌給他們,但是不考慮他們是大多數)。一旦新的伺服器追趕上了叢集中的其他機器,重新配置可以像上面描述的一樣處理。

第二個問題是,叢集的領導人可能不是新配置的一員。在這種情況下,領導人就會在提交了 C-new 日誌之後退位(回到跟隨者狀態)。這意味著有這樣的一段時間,領導人管理著叢集,但是不包括他自己;他複製日誌但是不把他自己算作是大多數之一。當 C-new 被提交時,會發生領導人過渡,因為這時是最早新的配置可以獨立工作的時間點(將總是能夠在 C-new 配置下選出新的領導人)。在此之前,可能只能從 C-old 中選出領導人。

第三個問題是,移除不在 C-new 中的伺服器可能會擾亂叢集。這些伺服器將不會再接收到心跳,所以當選舉超時,他們就會進行新的選舉過程。他們會發送擁有新的任期號的請求投票 RPCs,這樣會導致當前的領導人回退成跟隨者狀態。新的領導人最終會被選出來,但是被移除的伺服器將會再次超時,然後這個過程會再次重複,導致整體可用性大幅降低。

為了避免這個問題,當伺服器確認當前領導人存在時,伺服器會忽略請求投票 RPCs。特別的,當伺服器在當前最小選舉超時時間內收到一個請求投票 RPC,他不會更新當前的任期號或者投出選票。這不會影響正常的選舉,每個伺服器在開始一次選舉之前,至少等待一個最小選舉超時時間。然而,這有利於避免被移除的伺服器擾亂:如果領導人能夠傳送心跳給叢集,那麼他就不會被更大的任期號廢黜。

7 日誌壓縮

Raft 的日誌在正常操作中不斷的增長,但是在實際的系統中,日誌不能無限制的增長。隨著日誌不斷增長,他會佔用越來越多的空間,花費越來越多的時間來重置。如果沒有一定的機制去清除日誌裡積累的陳舊的資訊,那麼會帶來可用性問題。

快照是最簡單的壓縮方法。在快照系統中,整個系統的狀態都以快照的形式寫入到穩定的持久化儲存中,然後到那個時間點之前的日誌全部丟棄。快照技術被使用在 Chubby 和 ZooKeeper 中,接下來的章節會介紹 Raft 中的快照技術。

增量壓縮的方法,例如日誌清理或者日誌結構合併樹,都是可行的。這些方法每次只對一小部分資料進行操作,這樣就分散了壓縮的負載壓力。首先,他們先選擇一個已經積累的大量已經被刪除或者被覆蓋物件的區域,然後重寫那個區域還活躍的物件,之後釋放那個區域。和簡單操作整個資料集合的快照相比,需要增加複雜的機制來實現。狀態機可以實現 LSM tree 使用和快照相同的介面,但是日誌清除方法就需要修改 Raft 了。

圖 12:一個伺服器用新的快照替換了從 1 到 5 的條目,快照值儲存了當前的狀態。快照中包含了最後的索引位置和任期號。

圖 12 展示了 Raft 中快照的基礎思想。每個伺服器獨立的建立快照,只包括已經被提交的日誌。主要的工作包括將狀態機的狀態寫入到快照中。Raft 也包含一些少量的元資料到快照中: 最後被包含索引 指的是被快照取代的最後的條目在日誌中的索引值(狀態機最後應用的日誌), 最後被包含的任期 指的是該條目的任期號。保留這些資料是為了支援快照後緊接著的第一個條目的附加日誌請求時的一致性檢查,因為這個條目需要前一日誌條目的索引值和任期號。為了支援叢集成員更新(第 6 節),快照中也將最後的一次配置作為最後一個條目存下來。一旦伺服器完成一次快照,他就可以刪除最後索引位置之前的所有日誌和快照了。

儘管通常伺服器都是獨立的建立快照,但是領導人必須偶爾的傳送快照給一些落後的跟隨者。這通常發生在當領導人已經丟棄了下一條需要傳送給跟隨者的日誌條目的時候。幸運的是這種情況不是常規操作:一個與領導人保持同步的跟隨者通常都會有這個條目。然而一個執行非常緩慢的跟隨者或者新加入叢集的伺服器(第 6 節)將不會有這個條目。這時讓這個跟隨者更新到最新的狀態的方式就是通過網路把快照發送給他們。

安裝快照 RPC:

由領導人呼叫以將快照的分塊傳送給跟隨者。領導人總是按順序傳送分塊。

引數 解釋
term 領導人的任期號
leaderId 領導人的 ID,以便於跟隨者重定向請求
lastIncludedIndex 快照中包含的最後日誌條目的索引值
lastIncludedTerm 快照中包含的最後日誌條目的任期號
offset 分塊在快照中的位元組偏移量
data[] 從偏移量開始的快照分塊的原始位元組
done 如果這是最後一個分塊則為 true
結果 解釋
term 當前任期號(currentTerm),便於領導人更新自己

接收者實現:

term < currentTerm

圖 13:一個關於安裝快照的簡要概述。為了便於傳輸,快照都是被分成分塊的;每個分塊都給了跟隨者生命的跡象,所以跟隨者可以重置選舉超時計時器。

在這種情況下領導人使用一種叫做安裝快照的新的 RPC 來發送快照給太落後的跟隨者;見圖 13。當跟隨者通過這種 RPC 接收到快照時,他必須自己決定對於已經存在的日誌該如何處理。通常快照會包含沒有在接收者日誌中存在的資訊。在這種情況下,跟隨者丟棄其整個日誌;它全部被快照取代,並且可能包含與快照衝突的未提交條目。如果接收到的快照是自己日誌的前面部分(由於網路重傳或者錯誤),那麼被快照包含的條目將會被全部刪除,但是快照後面的條目仍然有效,必須保留。

這種快照的方式背離了 Raft 的強領導人原則,因為跟隨者可以在不知道領導人情況下建立快照。但是我們認為這種背離是值得的。領導人的存在,是為了解決在達成一致性的時候的衝突,但是在建立快照的時候,一致性已經達成,這時不存在衝突了,所以沒有領導人也是可以的。資料依然是從領導人傳給跟隨者,只是跟隨者可以重新組織他們的資料了。

我們考慮過一種替代的基於領導人的快照方案,即只有領導人建立快照,然後傳送給所有的跟隨者。但是這樣做有兩個缺點。第一,傳送快照會浪費網路頻寬並且延緩了快照處理的時間。每個跟隨者都已經擁有了所有產生快照需要的資訊,而且很顯然,自己從本地的狀態中建立快照比通過網路接收別人發來的要經濟。第二,領導人的實現會更加複雜。例如,領導人需要傳送快照的同時並行的將新的日誌條目傳送給跟隨者,這樣才不會阻塞新的客戶端請求。

還有兩個問題影響了快照的效能。首先,伺服器必須決定什麼時候應該建立快照。如果快照建立的過於頻繁,那麼就會浪費大量的磁碟頻寬和其他資源;如果建立快照頻率太低,他就要承受耗盡儲存容量的風險,同時也增加了從日誌重建的時間。一個簡單的策略就是當日志大小達到一個固定大小的時候就建立一次快照。如果這個閾值設定的顯著大於期望的快照的大小,那麼快照對磁碟壓力的影響就會很小了。

第二個影響效能的問題就是寫入快照需要花費顯著的一段時間,並且我們還不希望影響到正常操作。解決方案是通過寫時複製的技術,這樣新的更新就可以被接收而不影響到快照。例如,具有函式式資料結構的狀態機天然支援這樣的功能。另外,作業系統的寫時複製技術的支援(如 Linux 上的 fork)可以被用來建立完整的狀態機的記憶體快照(我們的實現就是這樣的)。

8 客戶端互動

這一節將介紹客戶端是如何和 Raft 進行互動的,包括客戶端如何發現領導人和 Raft 是如何支援線性化語義的。這些問題對於所有基於一致性的系統都存在,並且 Raft 的解決方案和其他的也差不多。

Raft 中的客戶端傳送所有請求給領導人。當客戶端啟動的時候,他會隨機挑選一個伺服器進行通訊。如果客戶端第一次挑選的伺服器不是領導人,那麼那個伺服器會拒絕客戶端的請求並且提供他最近接收到的領導人的資訊(附加條目請求包含了領導人的網路地址)。如果領導人已經崩潰了,那麼客戶端的請求就會超時;客戶端之後會再次重試隨機挑選伺服器的過程。

我們 Raft 的目標是要實現線性化語義(每一次操作立即執行,只執行一次,在他呼叫和收到回覆之間)。但是,如上述,Raft 是可以執行同一條命令多次的:例如,如果領導人在提交了這條日誌之後,但是在響應客戶端之前崩潰了,那麼客戶端會和新的領導人重試這條指令,導致這條命令就被再次執行了。解決方案就是客戶端對於每一條指令都賦予一個唯一的序列號。然後,狀態機跟蹤每條指令最新的序列號和相應的響應。如果接收到一條指令,它的序列號已經被執行了,那麼就立即返回結果,而不重新執行指令。

只讀的操作可以直接處理而不需要記錄日誌。但是,在不增加任何限制的情況下,這麼做可能會冒著返回髒資料的風險,因為領導人響應客戶端請求時可能已經被新的領導人作廢了,但是他還不知道。線性化的讀操作必須不能返回髒資料,Raft 需要使用兩個額外的措施在不使用日誌的情況下保證這一點。首先,領導人必須有關於被提交日誌的最新資訊。領導人完全特性保證了領導人一定擁有所有已經被提交的日誌條目,但是在他任期開始的時候,他可能不知道哪些是已經被提交的。為了知道這些資訊,他需要在他的任期裡提交一條日誌條目。Raft 中通過領導人在任期開始的時候提交一個空白的沒有任何操作的日誌條目到日誌中去來實現。第二,領導人在處理只讀的請求之前必須檢查自己是否已經被廢黜了(他自己的資訊已經變髒瞭如果一個更新的領導人被選舉出來)。Raft 中通過讓領導人在響應只讀請求之前,先和叢集中的大多數節點交換一次心跳資訊來處理這個問題。可選的,領導人可以依賴心跳機制來實現一種租約的機制,但是這種方法依賴時間來保證安全性(假設時間誤差是有界的)。

9 演算法實現和評估

我們已經為 RAMCloud 實現了 Raft 演算法作為儲存配置資訊的複製狀態機的一部分,並且幫助 RAMCloud 協調故障轉移。這個 Raft 實現包含大約 2000 行 C++ 程式碼,其中不包括測試、註釋和空行。這些程式碼是開源的。同時也有大約 25 個其他獨立的第三方的基於這篇論文草稿的開源實現,針對不同的開發場景。同時,很多公司已經部署了基於 Raft 的系統。

這一節會從三個方面來評估 Raft 演算法:可理解性、正確性和效能。

9.1 可理解性

為了和 Paxos 比較 Raft 演算法的可理解能力,我們針對高層次的本科生和研究生,在斯坦福大學的高階作業系統課程和加州大學伯克利分校的分散式計算課程上,進行了一次學習的實驗。我們分別拍了針對 Raft 和 Paxos 的影片課程,並準備了相應的小測驗。Raft 的影片講課覆蓋了這篇論文的所有內容除了日誌壓縮;Paxos 講課包含了足夠的資料來建立一個等價的複製狀態機,包括單決策 Paxos,多決策 Paxos,重新配置和一些實際系統需要的效能優化(例如領導人選舉)。小測驗測試一些對演算法的基本理解和解釋一些邊角的示例。每個學生都是看完第一個影片,回答相應的測試,再看第二個影片,回答相應的測試。大約有一半的學生先進行 Paxos 部分,然後另一半先進行 Raft 部分,這是為了說明兩者從第一部分的演算法學習中獲得的表現和經驗的差異。我們計算參加人員的每一個小測驗的得分來看參與者是否在 Raft 演算法上更加容易理解。

我們儘可能的使得 Paxos 和 Raft 的比較更加公平。這個實驗偏愛 Paxos 表現在兩個方面:43 個參加者中有 15 個人在之前有一些 Paxos 的經驗,並且 Paxos 的影片要長 14%。如表格 1 總結的那樣,我們採取了一些措施來減輕這種潛在的偏見。我們所有的材料都可供審查。

關心 緩和偏見採取的手段 可供檢視的材料
相同的講課質量 兩者使用同一個講師。Paxos 使用的是現在很多大學裡經常使用的。Paxos 會長 14%。 影片
相同的測驗難度 問題以難度分組,在兩個測驗裡成對出現。 小測驗
公平評分 使用評價量規。隨機順序打分,兩個測驗交替進行。 評價量規(rubric)

表 1:考慮到可能會存在的偏見,對於每種情況的解決方法,和相應的材料。

參加者平均在 Raft 的測驗中比 Paxos 高 4.9 分(總分 60,那麼 Raft 的平均得分是 25.7,而 Paxos 是 20.8);圖 14 展示了每個參與者的得分。配置t-檢驗(又稱student‘s t-test)表明,在 95% 的可信度下,真實的 Raft 分數分佈至少比 Paxos 高 2.5 分。

圖 14:一個散點圖表示了 43 個學生在 Paxos 和 Raft 的小測驗中的成績。在對角線之上的點表示在 Raft 獲得了更高分數的學生。

我們也建立了一個線性迴歸模型來預測一個新的學生的測驗成績,基於以下三個因素:他們使用的是哪個小測驗,之前對 Paxos 的經驗,和學習演算法的順序。模型預測,對小測驗的選擇會產生 12.5 分的差別。這顯著的高於之前的 4.9 分,因為很多學生在之前都已經有了對於 Paxos 的經驗,這相當明顯的幫助 Paxos,對 Raft 就沒什麼太大影響了。但是奇怪的是,模型預測對於先進行 Paxos 小測驗的人而言,Raft的得分低了6.3分; 雖然我們不知道為什麼,這似乎在統計上是有意義的。

我們同時也在測驗之後調查了參與者,他們認為哪個演算法更加容易實現和解釋;這個的結果在圖 15 上。壓倒性的結果表明 Raft 演算法更加容易實現和解釋(41 人中的 33個)。但是,這種自己報告的結果不如參與者的成績更加可信,並且參與者可能因為我們的 Raft 更加易於理解的假說而產生偏見。

圖 15:通過一個 5 分制的問題,參與者(左邊)被問哪個演算法他們覺得在一個高效正確的系統裡更容易實現,右邊被問哪個更容易向學生解釋。

關於 Raft 使用者學習有一個更加詳細的討論。

9.2 正確性

在第 5 節,我們已經制定了正式的規範,和對一致性機制的安全性證明。這個正式規範使用 TLA+ 規範語言使圖 2 中總結的資訊非常清晰。它長約400行,並作為證明的主題。同時對於任何想實現 Raft 的人也是十分有用的。我們通過 TLA 證明系統非常機械的證明了日誌完全特性。然而,這個證明依賴的約束前提還沒有被機械證明(例如,我們還沒有證明規範的型別安全)。而且,我們已經寫了一個非正式的證明關於狀態機安全性是完備的,並且是相當清晰的(大約 3500 個詞)。

9.3 效能

Raft 和其他一致性演算法例如 Paxos 有著差不多的效能。在效能方面,最重要的關注點是,當領導人被選舉成功時,什麼時候複製新的日誌條目。Raft 通過很少數量的訊息包(一輪從領導人到叢集大多數機器的訊息)就達成了這個目的。同時,進一步提升 Raft 的效能也是可行的。例如,很容易通過支援批量操作和管道操作來提高吞吐量和降低延遲。對於其他一致性演算法已經提出過很多效能優化方案;其中有很多也可以應用到 Raft 中來,但是我們暫時把這個問題放到未來的工作中去。

我們使用我們自己的 Raft 實現來衡量 Raft 領導人選舉的效能並且回答兩個問題。首先,領導人選舉的過程收斂是否快速?第二,在領導人宕機之後,最小的系統宕機時間是多久?

圖 16:發現並替換一個已經崩潰的領導人的時間。上面的圖考察了在選舉超時時間上的隨機化程度,下面的圖考察了最小選舉超時時間。每條線代表了 1000 次實驗(除了 150-150 毫秒只試了 100 次),和相應的確定的選舉超時時間。例如,150-155 毫秒意思是,選舉超時時間從這個區間範圍內隨機選擇並確定下來。這個實驗在一個擁有 5 個節點的叢集上進行,其廣播時延大約是 15 毫秒。對於 9 個節點的叢集,結果也差不多。

為了衡量領導人選舉,我們反覆的使一個擁有五個節點的伺服器叢集的領導人宕機,並計算需要多久才能發現領導人已經宕機並選出一個新的領導人(見圖 16)。為了構建一個最壞的場景,在每一的嘗試裡,伺服器都有不同長度的日誌,意味著有些候選人是沒有成為領導人的資格的。另外,為了促成選票瓜分的情況,我們的測試指令碼在終止領導人之前同步的傳送了一次心跳廣播(這大約和領導人在崩潰前複製一個新的日誌給其他機器很像)。領導人均勻的隨機的在心跳間隔裡宕機,也就是最小選舉超時時間的一半。因此,最小宕機時間大約就是最小選舉超時時間的一半。

圖 16 中上面的圖表明,只需要在選舉超時時間上使用很少的隨機化就可以大大避免選票被瓜分的情況。在沒有隨機化的情況下,在我們的測試裡,選舉過程往往都需要花費超過 10 秒鐘由於太多的選票瓜分的情況。僅僅增加 5 毫秒的隨機化時間,就大大的改善了選舉過程,現在平均的宕機時間只有 287 毫秒。增加更多的隨機化時間可以大大改善最壞情況:通過增加 50 毫秒的隨機化時間,最壞的完成情況(1000 次嘗試)只要 513 毫秒。

圖 16 中下面的圖顯示,通過減少選舉超時時間可以減少系統的宕機時間。在選舉超時時間為 12-24 毫秒的情況下,只需要平均 35 毫秒就可以選舉出新的領導人(最長的一次花費了 152 毫秒)。然而,進一步降低選舉超時時間的話就會違反 Raft 的時間不等式需求:在選舉新領導人之前,領導人就很難傳送完心跳包。這會導致沒有意義的領導人改變並降低了系統整體的可用性。我們建議使用更為保守的選舉超時時間,比如 150-300 毫秒;這樣的時間不大可能導致沒有意義的領導人改變,而且依然提供不錯的可用性。

10 相關工作

已經有很多關於一致性演算法的工作被髮表出來,其中很多都可以歸到下面的類別中:

  • Lamport 關於 Paxos 的原始描述,和嘗試描述的更清晰。
  • 關於 Paxos 的更詳盡的描述,補充遺漏的細節並修改演算法,使得可以提供更加容易的實現基礎。
  • 實現一致性演算法的系統,例如 Chubby,ZooKeeper 和 Spanner。對於 Chubby 和 Spanner 的演算法並沒有公開發表其技術細節,儘管他們都聲稱是基於 Paxos 的。ZooKeeper 的演算法細節已經發表,但是和 Paxos 著實有著很大的差別。
  • Paxos 可以應用的效能優化。
  • Oki 和 Liskov 的 Viewstamped Replication(VR),一種和 Paxos 差不多的替代演算法。原始的演算法描述和分散式傳輸協議耦合在了一起,但是核心的一致性演算法在最近的更新裡被分離了出來。VR 使用了一種基於領導人的方法,和 Raft 有很多相似之處。

Raft 和 Paxos 最大的不同之處就在於 Raft 的強領導特性:Raft 使用領導人選舉作為一致性協議裡必不可少的部分,並且將盡可能多的功能集中到了領導人身上。這樣就可以使得演算法更加容易理解。例如,在 Paxos 中,領導人選舉和基本的一致性協議是正交的:領導人選舉僅僅是效能優化的手段,而且不是一致性所必須要求的。但是,這樣就增加了多餘的機制:Paxos 同時包含了針對基本一致性要求的兩階段提交協議和針對領導人選舉的獨立的機制。相比較而言,Raft 就直接將領導人選舉納入到一致性演算法中,並作為兩階段一致性的第一步。這樣就減少了很多機制。

像 Raft 一樣,VR 和 ZooKeeper 也是基於領導人的,因此他們也擁有一些 Raft 的優點。但是,Raft 比 VR 和 ZooKeeper 擁有更少的機制因為 Raft 儘可能的減少了非領導人的功能。例如,Raft 中日誌條目都遵循著從領導人傳送給其他人這一個方向:附加條目 RPC 是向外傳送的。在 VR 中,日誌條目的流動是雙向的(領導人可以在選舉過程中接收日誌);這就導致了額外的機制和複雜性。根據 ZooKeeper 公開的資料看,它的日誌條目也是雙向傳輸的,但是它的實現更像 Raft。

和上述我們提及的其他基於一致性的日誌複製演算法中,Raft 的訊息型別更少。例如,我們數了一下 VR 和 ZooKeeper 使用的用來基本一致性需要和成員改變的訊息數(排除了日誌壓縮和客戶端互動,因為這些都比較獨立且和演算法關係不大)。VR 和 ZooKeeper 都分別定義了 10 種不同的訊息型別,相對的,Raft 只有 4 種訊息型別(兩種 RPC 請求和對應的響應)。Raft 的訊息都稍微比其他演算法的要資訊量大,但是都很簡單。另外,VR 和 ZooKeeper 都在領導人改變時傳輸了整個日誌;所以為了能夠實踐中使用,額外的訊息型別就很必要了。

Raft 的強領導人模型簡化了整個演算法,但是同時也排斥了一些效能優化的方法。例如,平等主義 Paxos (EPaxos)在某些沒有領導人的情況下可以達到很高的效能。平等主義 Paxos 充分發揮了在狀態機指令中的交換性。任何伺服器都可以在一輪通訊下就提交指令,除非其他指令同時被提出了。然而,如果指令都是併發的被提出,並且互相之間不通訊溝通,那麼 EPaxos 就需要額外的一輪通訊。因為任何伺服器都可以提交指令,所以 EPaxos 在伺服器之間的負載均衡做的很好,並且很容易在 WAN 網路環境下獲得很低的延遲。但是,他在 Paxos 上增加了非常明顯的複雜性。

一些叢集成員變換的方法已經被提出或者在其他的工作中被實現,包括 Lamport 的原始的討論,VR 和 SMART。我們選擇使用共同一致的方法因為他對一致性協議的其他部分影響很小,這樣我們只需要很少的一些機制就可以實現成員變換。Lamport 的基於 α 的方法之所以沒有被 Raft 選擇是因為它假設在沒有領導人的情況下也可以達到一致性。和 VR 和 SMART 相比較,Raft 的重新配置演算法可以在不限制正常請求處理的情況下進行;相比較的,VR 需要停止所有的處理過程,SMART 引入了一個和 α 類似的方法,限制了請求處理的數量。Raft 的方法同時也需要更少的額外機制來實現,和 VR、SMART 比較而言。

11 結論

演算法的設計通常會把正確性,效率或者簡潔作為主要的目標。儘管這些都是很有意義的目標,但是我們相信,可理解性也是一樣的重要。在開發者把演算法應用到實際的系統中之前,這些目標沒有一個會被實現,這些都會必然的偏離發表時的形式。除非開發人員對這個演算法有著很深的理解並且有著直觀的感覺,否則將會對他們而言很難在實現的時候保持原有期望的特性。

在這篇論文中,我們嘗試解決分散式一致性問題,但是一個廣為接受但是十分令人費解的演算法 Paxos 已經困擾了無數學生和開發者很多年了。我們創造了一種新的演算法 Raft,顯而易見的比 Paxos 要容易理解。我們同時也相信,Raft 也可以為實際的實現提供堅實的基礎。把可理解性作為設計的目標改變了我們設計 Raft 的方式;隨著設計的進展,我們發現自己重複使用了一些技術,比如分解問題和簡化狀態空間。這些技術不僅提升了 Raft 的可理解性,同時也使我們堅信其正確性。

12 感謝

這項研究必須感謝以下人員的支援:Ali Ghodsi,David Mazie`res,和伯克利 CS 294-91 課程、斯坦福 CS 240 課程的學生。Scott Klemmer 幫我們設計了使用者調查,Nelson Ray 建議我們進行統計學的分析。在使用者調查時使用的關於 Paxos 的幻燈片很大一部分是從 Lorenzo Alvisi 的幻燈片上借鑑過來的。特別的,非常感謝 DavidMazieres 和 Ezra Hoch,他們找到了 Raft 中一些難以發現的漏洞。許多人提供了關於這篇論文十分有用的反饋和使用者調查材料,包括 Ed Bugnion,Michael Chan,Hugues Evrard,Daniel Giffin,Arjun Gopalan,Jon Howell,Vimalkumar Jeyakumar,Ankita Kejriwal,Aleksandar Kracun,Amit Levy,Joel Martin,Satoshi Matsushita,Oleg Pesok,David Ramos,Robbert van Renesse,Mendel Rosenblum,Nicolas Schiper,Deian Stefan,Andrew Stone,Ryan Stutsman,David Terei,Stephen Yang,Matei Zaharia 以及 24 位匿名的會議審查人員(可能有重複),並且特別感謝我們的領導人 Eddie Kohler。Werner Vogels 發了一條早期草稿連結的推特,給 Raft 帶來了極大的關注。我們的工作由 Gigascale 系統研究中心和 Multiscale 系統研究中心給予支援,這兩個研究中心由關注中心研究程式資金支援,一個是半導體研究公司的程式,由 STARnet 支援,一個半導體研究公司的程式由 MARCO 和 DARPA 支援,在國家科學基金會的 0963859 號批准,並且獲得了來自 Facebook,Google,Mellanox,NEC,NetApp,SAP 和 Samsung 的支援。Diego Ongaro 由 Junglee 公司,斯坦福的畢業團體支援。

地址:https://github.com/maemual/raft-zh_cn/blob/master/raft-zh_cn.md