使用 Fluent Bit 實現雲邊統一可觀測性

語言: CN / TW / HK

本文基於 KubeSphere 可觀測性與邊緣計算負責人霍秉傑在北美 KubeCon 的 Co-located event Open Observability Day 閃電演講的內容進行整理。

整理人:米開朗基楊、大飛哥

Fluent Operator 簡介

2019 年 1 月 21 日,KubeSphere 社群為了滿足以雲原生的方式管理 Fluent Bit 的需求開發了 FluentBit Operator,並在 2020 年 2 月 17 日釋出了 v0.1.0 版本。此後產品不斷迭代,一直維護到 v0.8.0,實現了 Fluent Bit 配置的熱載入,而無需重啟整個 Fluent Bit 容器。2021 年 8 月,Kubesphere 團隊將該專案捐獻給 Fluent 社群,並從 v0.9.0 一直持續迭代到 v0.13.0。

2022 年 3 月,FluentBit Operator 正式更名為 Fluent Operator,因為我們增加了對 Fluentd 的支援,而且把 FluentBit CRDs 定義範圍從名稱空間擴大到叢集級別,並於 2022 年 3 月 25 日釋出了里程碑版本 v1.0.0。

整體架構預覽

Fluent Operator 可以構建完整的雲原生日誌採集通道。FluentBit 小巧輕量,適合作為 Agent 收集日誌;Fluentd 外掛豐富功能強大,適合對日誌進行集中處理,二者可以獨立使用,也可以協作共存,使用方案非常靈活。

僅使用 Fluent Bit 收集日誌

Fluent Operator 可以非常便捷地部署 FluentBit Daemonset 服務,運行於各計算節點。當然叢集層級的 FluentBit CRD 也可以配置各種 Input,Filter,Parser,Output 等。Fluent Bit 支援將日誌直接匯出到 ElasticSearch,Kafka,Loki,S3 等眾多目標服務,這些只需配置 CRD 即可。

僅使用 Fluentd 收集日誌

Fluent Operator 可以非常便捷地將 Fluentd 部署為 Statefulset 服務,應用可以通過 HTTP,Syslog 等方式傳送日誌,同時 Fluentd 還支援級聯模式,即 Fluentd 可以接收來自另一個 Fluentd 服務的日誌。類比於 Fluent Bit,Fluentd 也支援叢集級別的 CRD 配置,可以方便的配置 Input,Filter,Parser,Output 等。Fluentd 內建支援上百種外掛,輸入輸出都非常豐富。

同時使用 Fluentd 和 Fluent Bit

Fluentd 和 Fluent Bit 在設計架構上極為相似,都有著豐富的社群外掛支援,但二者側重的使用場景有所差異。Fluent Bit 小巧精緻,資源消耗少,更適合作為 Agent 來採集日誌,而 Fluentd 相對前者功能更加豐富,作為資料中轉站或資料治理服務更為貼切。所以絕大多數場景中,二者配合可以構建出靈活高效且擴充套件性極強的日誌收集流水線。

v1.0 後的重要更新

至 Fluent Operator 釋出 v1.0.0 至今,仍然在高速迭代。v1.1.0 版本新增了對 OpenSearch 輸出的支援;v1.5.0 新增了對 Loki 輸出的支援,同時還增加了對監控指標(Metrics)採集的支援,支援清單如下:

  • Node Exporter 指標採集
  • Prometheus Scrape 指標採集
  • Fluent Bit 指標採集
  • Prometheus 遠端寫入的輸出資訊採集
  • OpenTelemetry 輸出採集

正是基於對監控指標採集的支援,Fluent Operator 才可以完美構建雲邊統一的可觀測性。

以上內容關注的是對雲端資源的資料採集,下面我們來看看 Fluent Operator 在邊緣計算場景下的支援情況。

我們使用的邊緣計算框架是 KubeEdge,下面我給大家介紹下 KubeEdge 這個專案。

KubeEdge 介紹

KubeEdge 是 CNCF 孵化的面向邊緣計算場景、專為邊雲協同設計的雲原生邊緣計算框架,除了 KubeEdge 之外還有很多其他的邊緣計算框架,比如 K3s。K3s 會在邊緣端建立完整的 K8s 叢集,而 KubeEdge 只是在邊緣端建立幾個邊緣節點(Edge Node),邊緣節點通過加密隧道連線到雲端的 K8s 叢集,這是 KubeEdge 與 K3s 比較明顯的差異。

KubeEdge 的邊緣節點會執行一個與 Kubelet 類似的元件叫 Edged,比 Kubelet 更輕量化,用來管理邊緣節點的容器。Edged 也會暴露 Prometheus 格式的監控指標,而且暴露方式和 Kubelet 保持一致,都是這種格式:127.0.0.1:10350/metrics/cadvisor

統一可觀測性方案架構

下面著重講解如何使用 Fluent Bit 來實現雲邊統一的可觀測性

直接來看架構圖,雲端部署了一個 K8s 叢集,邊緣端運行了一系列邊緣節點。雲端通過 Prometheus Agent 從 Node Exporter、Kubelet 和 kube-state-metrics 等元件中收集監控指標,同時還部署了一個 Fluent Operator 用來同時管理和部署雲端和邊緣端的 Fluent Bit Daemonset 例項。

對於邊緣節點來說,情況就不那麼樂觀了,因為邊緣節點資源有限,無法部署以上這些元件來收集可觀測性資料。因此我們對邊緣端的監控指標收集方案進行了改良,將 Prometheus (Agent) 替換為 Fluent Bit,並移除了 Node Expoter,使用更輕量的 Fluent Bit Node Exporter Metrics 外掛來替代,同時使用 Fluent Bit Prometheus Scrape Metrics 外掛來收集邊緣端 Edged 和工作負載的監控指標。

這個架構的優點是隻需要在邊緣端部署一個元件 Fluent Bit,而且可以同時收集邊緣節點和邊緣應用的日誌和監控指標,對於資源緊張的邊緣節點來說,這是一個非常完美的方案。

統一可觀測性方案實踐

最後給大家演示下如何在邊緣端部署 Fluent Bit,並使用它來收集邊緣節點的監控指標和日誌資料。Fluent Bit 的部署方式通過自定義資源(CR)FluentBit 來宣告,內容如下:

apiVersion: fluentbit.fluent.io/v1alpha2
kind: FluentBit
metadata:
  name: fluentbit-edge
  namespace: fluent
  labels:
    app.kubernetes.io/name: fluent-bit
spec:
  image: kubesphere/fluent-bit:v1.9.9
  positionDB:
    hostPath:
      path: /var/lib/fluent-bit/
  resources:
    requests:
      cpu: 10m
      memory: 25Mi
    limits:
      cpu: 500m
      memory: 200Mi
  fluentBitConfigName: fluent-bit-config-edge
  tolerations:
    - operator: Exists
  affinity:
    nodeAffinity:
      requiredDuringSchedulingIgnoredDuringExecution:
        nodeSelectorTerms:
        - matchExpressions:
          - key: node-role.kubernetes.io/edge
            operator: Exists
  hostNetwork : true
  volumes:
    - name: host-proc
      hostPath:
        path: /proc/
    - name: host-sys
      hostPath:
        path: /sys/
  volumesMounts:
    - mountPath: /host/sys
      mountPropagation: HostToContainer
      name: host-sys 
      readOnly: true
    - mountPath: /host/proc
      mountPropagation: HostToContainer
      name: host-proc 
      readOnly: true

我們通過 Node Affinity 將 Fluent Bit 指定部署到邊緣節點。為了能夠替代 Node Exporter 元件的功能,還需要將 Node Exporter 用到的主機路徑對映到容器中。

接下來需要通過自定義資源 ClusterInput 建立一個 Fluent Bit Prometheus Scrape Metrics 外掛來收集邊緣端工作負載的監控指標:

apiVersion: fluentbit.fluent.io/v1alpha2
kind: ClusterInput
metadata:
  name: prometheus-scrape-metrics-edge
  labels:
    fluentbit.fluent.io/enabled: "true"
    node-role.kubernetes.io/edge: "true"
spec:
  prometheusScrapeMetrics:
    tag: kubeedge.*
    host: 127.0.0.1
    port: 10350
    scrapeInterval: 30s
    metricsPath : /metrics/cadvisor 

並通過自定義資源 ClusterInput 再建立一個 Fluent Bit Node Exporter Metrics 外掛來收集邊緣節點的監控指標(替代 Node Exporter):

apiVersion: fluentbit.fluent.io/v1alpha2
kind: ClusterInput
metadata:
  name: node-exporter-metrics-edge
  labels:
    fluentbit.fluent.io/enabled: "true"
    node-role.kubernetes.io/edge: "true"
spec:
  nodeExporterMetrics:
    tag: kubeedge.*
    scrapeInterval: 30s
    path :
        procfs: /host/proc
        sysfs : /host/sys

最後還需要通過自定義資源 ClusterOutput 建立一個 Fluent Bit Prometheus Remote Write 外掛,用來將邊緣端收集到的監控指標寫入到 K8s 叢集的 Prometheus 長期儲存中。

apiVersion: fluentbit.fluent.io/v1alpha2
kind: ClusterOutput
metadata:
  name: prometheus-remote-write-edge
  labels:
    fluentbit.fluent.io/enabled: "true"
    node-role.kubernetes.io/edge: "true"
spec:
  matchRegex: (?:kubeedge|service)\.(.*)
  prometheusRemoteWrite:
    host: <cloud-prometheus-service-host>
    port: <cloud-prometheus-service-port>
    uri: /api/v1/write
    addLabels : 
      app : fluentbit
      node: ${NODE_NAME}
      job : kubeedge

基於上述步驟,最終我們通過 Fluent Bit 實現了雲邊統一的可觀測性。

總結

雖然 Fluent Bit 的初衷是收集日誌,但最近也開始支援收集 Metrics 和 Tracing 資料,這一點很令人興奮,這樣就可以使用一個元件來同時收集所有的可觀測性資料(Log、Metrics、Tracing)了。如今 Fluent Operator 也支援了這些功能,並通過自定義資源提供了簡單直觀的使用方式,想要使用哪些外掛直接通過自定義資源宣告即可,一目瞭然。

當然,Fluent Operator 這個專案還很年輕,也有很多需要改進的地方,歡迎大家參與到該專案中來,為其添磚加瓦。

本文由部落格一文多發平臺 OpenWrite 釋出!