PostgreSQL邏輯複製解密

語言: CN / TW / HK

時間 2022-09-21 11:22:38 51CTO博文

在數字化時代的今天，我們都認同數據會創造價值。為了最大化數據的價值，我們不停的建立着數據遷移的管道，從同構到異構，從關係型到非關係型，從雲下到雲上，從數倉到數據湖，試圖在各種場景挖掘數據的價值。而在這縱橫交錯的數據網絡中，邏輯複製扮演着及其重要的角色。

讓我們將視角從複雜的網絡拉回其中的一個端點，從PostgreSQL出發，對其邏輯複製的原理進行解密。

1 概念與原理

邏輯複製，是基於複製標識複製數據及其變化的一種方法。區別於物理複製對頁面操作的描述，邏輯複製是對事務及數據元組的一種描述。

圖-WAL數據流示例

如圖所示，物理複製的數據流是對 tablespace/database/filenode文件的塊進行操作，而邏輯複製的內容是對元組進行描述。

接下來我們來看邏輯複製中的幾個概念：

複製槽

複製槽是記錄複製狀態的一組信息。由於WAL（預寫式日誌）文件在數據真正落盤後會刪除，複製槽會防止過早清理邏輯複製解析所需的WAL日誌。在邏輯複製中，每個插槽從單個數據庫流式傳輸一系列更改，創建複製槽需要指定其使用的輸出插件，同時創建複製槽時會提供一個快照。

輸出插件

輸出插件負責將WAL日誌解碼為可讀的格式，常用的插件用test_decoding(多用來測試)，pgoutput（默認使用），wal2json（輸出為json）。PostgreSQL定義了一系列回調函數，我們除了使用上述插件，可以通過回調函數編寫自己的輸出插件。

圖-複製槽數據流

複製協議與消息

通過複製協議，我們可以從源端獲取WAL數據流。例如通過PSQL工具建議複製連接

psql "dbname=postgres replicatinotallow=database"

開啟流式傳輸WAL

START_REPLICATION[ SLOT slot_name] [ PHYSICAL] XXX/XXX[ TIMELINE tli]

無論是物理複製，還是邏輯複製，使用PostgreSQL的發佈訂閲或者pg_basebackup搭建流複製，都是通過複製協議與定義的消息進行交互（物理複製和邏輯複製數據流內容不同）

圖- WAL數據流消息類型

圖-邏輯複製中的XLogData消息

工作流程

當我們瞭解了概念之後，來看一下整個解析的工作流程。由於WAL文件裏一個事務的內容並不一定是連續的，所以需要通過Reorder後放在buffer中，根據事務ID組織成一條消息，COMMIT後發送給輸出插件，輸出插件解析後將消息流發送給目標端。

圖-邏輯解析工作流程

2 問題與演進

當我們掌握了邏輯複製的原理，計劃使用其構建我們的數據遷移應用之前，我們還有一些問題並沒有解決。讓我們來一起看看是什麼亟待解決的問題，以及我們如何進行處理。

問題一：Failover slot

為了高可用性，數據庫至少會存在一主一備的架構，當主庫故障進行高可用切換時，備庫卻沒有相應的複製槽信息，也就是缺少failover slot。這是由於保存slot信息的物理文件，未同步至備庫。那麼我們如何手動創建一個faliover slot呢？

1. 主庫創建複製槽，檢查備庫wal文件是否連續

2. 複製包含slot信息的物理文件至備庫，在pg_repslot目錄下

3. 備庫重啟，重啟後才可以看到複製槽信息，原因是讀取slot物理文件的函數 StartupReplicationSlots只會在postmaster進程啟動時調用。

4. 定期查詢主庫slot狀態，使用pg_replication_slot_advance函數推進備庫複製槽

自此，我們在備庫上也有了相應的信息，手動實現了failover slot。PostgreSQL生態中著名的高可用軟件Patroni也是以這種方式進行了實現，區別只是在Patroni查詢主庫slot狀態時將信息寫入了DCS中，備庫拿到DCS中的位點信息進行推進。

問題二：DDL同步

原生的邏輯複製不支持解析DDL語句，我們可以使用事件觸發器來進行處理。

1. 使用事件觸發器感知表結構變更，記錄到DDL_RECORD表中，並將該表通過邏輯複製進行發佈。

2. 接收端獲取到該表的數據變更，即可處理為相應DDL語句進行執行。

圖-事件觸發器實現DDL同步

問題三：雙向同步

當數據遷移涉及雙向同步的管道時，例如想實現雙主雙寫，對數據庫同一對象進行操作，就會出現WAL循環。

圖-相同表雙向同步導致數據循環

部分DTS應用為了解決這個問題會創建輔助表，在事務中先對輔助表進行操作，通過解析到對輔助表的操作而得知該記錄是又DTS應用插入，從而過濾該事務，不再循環解析。PostgreSQL對事務提供了Origin記錄，無須輔助表，通過pg_replication_origin_session_setup函數或者發佈訂閲中的replorigin_create即可指定Origin ID。

指定Origin ID後，我們除了可以解析後通過DTS應用進行過濾，還也可以通過解析插件中的FilterByOriginCB回調函數在解析過程中過濾，這種方式減少了數據傳輸，效率更高。

圖-test_decoding中OriginFilter函數DEMO

其他問題：

除了以上三個問題，還有一些使用的問題或限制。這裏列出了一些，不再展開，僅簡要説明。

Toast處理：對於toast值(消息格式中可以判斷)，我們在處理時一般使用佔位符進行處理，接收端接收到佔位符就不對這一列進行處理，雖然有些麻煩，但這也是在和傳輸toast值的方案中權衡的結果。

心跳錶：由於複製槽記錄的XMIN是全局的，當我們發佈的表一直沒有更新時，XMIN沒有推進導致WAL積壓，我們可以創建一張心跳錶，週期性寫入數據併發布，使XMIN進行推進。

大事務延遲：根據前文提到的工作流程我們可以知道默認事務在COMMIT後才會進行解析，這對於大事務來説勢必會導致延遲，PG14版本提供了streamin模式進行解析，即事務進行中進行解析併發送至接收端。

3 應用與實踐

前兩節我們從原理及問題的角度對PostgreSQL進行了解密，接下來我們看如何通過我們掌握的邏輯複製原理，進行數據遷移的應用與實踐。

全量與增量同步

在真實的數據遷移場景中，大部分都是全量和增量都要同步的場景，並且我們打通了數據傳輸的通道後，也對這條通道的安全，效率，以及功能的擴展，例如清洗，脱敏等ETL能力提出了新的要求。我們先來看一下如果實現全量與增量的同步。

圖-數據流向示意圖

主要流程包括：

1. 創建複製槽並導出快照

2. 根據快照進行全量數據遷移

3. 根據複製槽進行增量數據的遷移

我們使用了PG數據庫或者消息隊列MQ作為數據代理，全量與增量解析可以同時進行，當全量數據處理完畢後，狀態機通知增量處理程序進行增量發佈。而對於代理中的數據，可以在解析後進行預處理。

自建實例遷移上雲實踐

最後和大家分享一個自建實例遷移上雲的實踐，該案例是將自建的PG10版本實例遷移至京東雲上的RDS PG 11版本，通過對增量數據的迴流以及數據校驗保證了數據安全與業務平穩切換。

圖-數據遷移上雲

DTS應用主要分為如下幾個階段：

1. 數據檢查階段：檢查主鍵，權限，配置

2. 數據遷移階段：結構，存量，增量數據遷移，監控遷移狀態

3. 應用遷移階段：切換域名，引入流量

4. 回滾階段：增量數據迴流，若出現問題可快速回滾。

作者：蔣帥

「其他文章」