如何在 Kubernetes 叢集中玩轉 Fluid + JuiceFS

語言: CN / TW / HK

雲知聲 Atlas 團隊在 2021 年初開始接觸並跟進 JuiceFS 儲存,並且在早期已經積累了豐富的 Fluid 使用經驗。近期,雲知聲團隊與 Juicedata 團隊合作開發了 Fluid JuiceFS 加速引擎,使使用者能夠更好地在 Kubernetes 環境中使用 JuiceFS 快取管理能力。本篇文章講解如何在 Kubernetes 叢集中玩轉 Fluid + JuiceFS。

背景介紹

Fluid 簡介

CNCF Fluid 是一個開源的 Kubernetes 原生的分散式資料集編排和加速引擎,主要服務於雲原生場景下的資料密集型應用,例如大資料應用、AI 應用等,關於 Fluid 更多資訊可以參考地址

Fluid 不是全儲存加速和管理,而是應用使用的資料集加速和管理。Fluid 提供了一種更加雲原生的方式對資料集進行管理,通過快取加速引擎實現將底層儲存系統的資料 cache 在計算節點的記憶體或者硬碟上,解決了計算與儲存分離架構中由於資料傳輸頻寬限制以及底層儲存頻寬與 IOPS 能力限制等問題,導致的 IO 效率不高等問題。Fluid 提供快取資料排程能力,快取被納入 kubernetes 擴充套件資源,kubernetes 在進行任務的排程的時候,能夠參考快取進行排程策略的分配。

Fluid 有 2個重要的概念:Dataset 與 Runtime

  • Dataset: 資料集是邏輯上相關的一組資料的集合,一致的檔案特性,會被同一運算引擎使用。
  • Runtime: 實現資料集安全性,版本管理和資料加速等能力的執行引擎的介面,定義了一系列生命週期的方法。

Fluid 的 Runtime 定義了標準化的介面,Cache Runtime Engine 可以對接多種快取引擎,提供了使用者更靈活的選擇,使用者能夠針對不同的場景與需求,充分利用快取引擎加速相應的場景應用。

JuiceFS 簡介

JuiceFS 是一個面向雲環境設計的高效能開源分散式檔案系統,完全相容 POSIX、HDFS、S3 介面,適用於大資料、AI 模型訓練、Kubernetes 共享儲存、海量資料歸檔管理等場景。

使用 JuiceFS 儲存資料,資料本身會被持久化在物件儲存(例如,Amazon S3),而資料所對應的元資料可以根據場景需求被持久化在 Redis、MySQL、TiKV 等多種資料庫引擎中。JuiceFS 客戶端具有資料快取能力,當通過 JuiceFS 客戶端讀取資料時,這些資料將會智慧地快取到應用配置的本地快取路徑(可以是記憶體,也可以是磁碟),同時元資料也會快取到客戶端節點本地記憶體中。

對於 AI 模型訓練場景來說,第一個 epoch 完成之後後續的計算都可以直接從快取中獲取訓練資料,極大地提升了訓練效率。JuiceFS 也具有預讀、併發讀取資料的能力,在 AI 訓練場景能夠保證每個 mini-batch 的生成效率,提前準備好資料。資料預熱能夠提前將公有云上的資料換到到本地節點,對於 AI 訓練場景能夠保證申請完 GPU 資源後,即有預熱的資料進行運算,為寶貴的 GPU 使用節省了時間。

為什麼使用 JuiceFSRuntime

雲知聲 Atlas 超算平臺作為底層基礎架構,支援著公司在 AI 各個領域的模型訓練與推理服務的開展。雲知聲很早就開始佈局建設業界領先的 GPU/CPU 異構 Atlas 計算平臺和分散式檔案儲存系統,該計算叢集可為 AI 計算提供高效能運算和海量資料的儲存訪問能力。雲知聲 Atlas 團隊在 2021 年初開始接觸並跟進 JuiceFS 儲存,進行了一系列 POC 測試,在資料可靠性與業務場景的適配,都滿足我們目前的需求。

在訓練場景我們充分利用 JuiceFS 客戶端的快取能力,為 AI 模型訓練做資料加速,但是在使用過程中發現了一些問題:

  • 訓練 Pod 通過 hostpath 掛載,需要在每個計算節點掛載 JuiceFS 客戶端,掛載需要管理員操作,掛載引數固定,不夠靈活。
  • 使用者無法對計算節點客戶端的快取管理,快取無法手動清理與擴容。
  • 快取資料集無法像 Kubernetes 自定義資源一樣能夠被 kubernetes 進行排程。

由於我們在生產環境已經積累了一定的 Fluid 使用經驗,所以我們與 Juicedata 團隊合作設計並開發了 JuiceFSRuntime,將 Fluid 對資料編排與管理能力和 JuiceFS 的快取能力結合起來。

什麼是 Fluid + JuiceFS(JuiceFSRuntime)

JuiceFSRuntime 是 Fluid 自定義的一種 Runtime,其中可以指定 JuiceFS 的 worker、fuse 映象以及相應的快取引數。其構建方式與 Fluid 其他 Runtime 一致,即通過 CRD 的方式構建,JuiceFSRuntime Controller 監聽 JuiceFSRuntime 資源,實現快取 Pod 的管理。

JuiceFSRuntime 支援資料親和性排程(nodeAffinity),選擇合適的快取節點,支援 Fuse pod 懶啟動,支援使用者以 POSIX 介面訪問資料,目前只支援一個掛載點。

其架構圖如上圖所示,JuiceFSRuntime 由 Fuse Pod 與 Worker Pod 組成。Worker pod 主要實現快取的管理,如 Runtime 退出時的快取清理;Fuse pod 主要負責 JuiceFS 客戶端的引數設定及掛載。

如何使用 JuiceFSRunime

下面來看看如何使用 JuiceFSRuntime 進行快取加速。

前期準備

要使用 JuiceFSRuntime 首先需要準備元資料引擎和物件儲存。

構建元資料引擎

使用者可以很容易的在雲端計算平臺購買到各種配置的雲 Redis 資料庫,如果是評估測試使用可以使用 Docker 快速的在伺服器上執行一個 Redis 資料庫例項:

$ sudo docker run -d --name redis \
	-v redis-data:/data \
	-p 6379:6379 \
	--restart unless-stopped \
	redis redis-server --appendonly yes

準備物件儲存

和 Redis 資料庫一樣,幾乎所有的公有云計算平臺都提供物件儲存服務。因為 JuiceFS 支援幾乎所有主流平臺的物件儲存服務,使用者可以結合自己的情況進行部署。

這裡是評估測試應該使用的是 Dokcer 執行的 minio 例項:

$ $ sudo docker run -d --name minio \
    -p 9000:9000 \
    -p 9900:9900 \
    -v $PWD/minio-data:/data \
    --restart unless-stopped \
    minio/minio server /data --console-address ":9900"

物件儲存初始的 Access Key 和 Secret Key 均為 minioadmin。

下載並安裝 Fluid

按照文件步驟安裝 Fluid,在 Fluid 的安裝 chart values.yaml 中將 runtime.juicefs.enable 設定為 true,並安裝 Fluid。確保 Fluid 叢集正常執行:

kubectl get po -n fluid-system
NAME                                         READY   STATUS              RESTARTS   AGE
csi-nodeplugin-fluid-ctc4l                   2/2     Running             0          113s
csi-nodeplugin-fluid-k7cqt                   2/2     Running             0          113s
csi-nodeplugin-fluid-x9dfd                   2/2     Running             0          113s
dataset-controller-57ddd56b54-9vd86          1/1     Running             0          113s
fluid-webhook-84467465f8-t65mr               1/1     Running             0          113s
juicefsruntime-controller-56df96b75f-qzq8x   1/1     Running             0          113s

確保 juicefsruntime-controllerdataset-controllerfluid-webhookpod 以及若干 csi-nodeplugin pod 正常執行。

建立 Dataset

在使用 JuiceFS 之前,需要提供元資料服務(如 redis)及物件儲存服務(如 minio)的引數,並建立對應的 secret:

kubectl create secret generic jfs-secret \
    --from-literal=metaurl=redis://$IP:6379/1 \  # redis 的地址 IP 為 redis 所在節點的 IP
    --from-literal=access-key=minioadmin \ # 物件儲存的 ak
    --from-literal=secret-key=minioadmin  #物件儲存的 sk

建立 Dataset yaml 檔案

cat<<EOF >dataset.yaml
apiVersion: data.fluid.io/v1alpha1
kind: Dataset
metadata:
  name: jfsdemo
spec:
  mounts:
    - name: minio
      mountPoint: "juicefs:///demo"
      options:
        bucket: "<bucket>"
        storage: "minio"
      encryptOptions:
        - name: metaurl
          valueFrom:
            secretKeyRef:
              name: jfs-secret
              key: metaurl
        - name: access-key
          valueFrom:
            secretKeyRef:
              name: jfs-secret
              key: access-key
        - name: secret-key
          valueFrom:
            secretKeyRef:
              name: jfs-secret
              key: secret-key
EOF

由於 JuiceFS 採用的是本地快取,對應的 Dataset 只支援一個 mount,且 JuiceFS 沒有 UFS,mountpoint 中可以指定需要掛載的子目錄 ("juicefs:///" 為根路徑),會作為根目錄掛載到容器內。

建立 Dataset 並檢視 Dataset 狀態

$ kubectl create -f dataset.yaml
dataset.data.fluid.io/jfsdemo created
 
$ kubectl get dataset jfsdemo
NAME      UFS TOTAL SIZE   CACHED   CACHE CAPACITY   CACHED PERCENTAGE   PHASE      AGE
jfsdemo                                                                  NotBound   44s

如上所示,status 中的 phase 屬性值為 NotBound,這意味著該 Dataset 資源物件目前還未與任何 JuiceFSRuntime 資源物件繫結,接下來,我們將建立一個 JuiceFSRuntime 資源物件。

建立 JuiceFSRuntime

建立 JuiceFSRuntime 的 yaml 檔案

$ cat<<EOF >runtime.yaml
apiVersion: data.fluid.io/v1alpha1
kind: JuiceFSRuntime
metadata:
  name: jfsdemo
spec:
  replicas: 1
  tieredstore:
    levels:
      - mediumtype: SSD
        path: /cache
        quota: 40960   # JuiceFS 中 quota 的最小單位是 MiB,所以這裡是 40GiB
        low: "0.1"
EOF

建立並檢視 JuiceFSRuntime

$ $ kubectl create -f runtime.yaml
juicefsruntime.data.fluid.io/jfsdemo created

$ kubectl get juicefsruntime
NAME      WORKER PHASE   FUSE PHASE   AGE
jfsdemo   Ready                       Ready        72s

檢視 JuiceFS 相關元件 Pod 的狀態

$$ kubectl get po |grep jfs
jfsdemo-worker-mjplw                                           1/1     Running   0          4m2s

JuiceFSRuntime 沒有 master 元件,而 Fuse 元件實現了懶啟動,會在 pod 使用時再建立。

建立快取加速作業

建立需要加速的應用,其中 Pod 使用上面建立的 Dataset 的方式為指定同名的 PVC

$ cat<<EOF >sample.yaml
apiVersion: v1
kind: Pod
metadata:
  name: demo-app
spec:
  containers:
    - name: demo
      image: nginx
      volumeMounts:
        - mountPath: /data
          name: demo
  volumes:
    - name: demo
      persistentVolumeClaim:
        claimName: jfsdemo
EOF

建立 Pod

$ kubectl create -f sample.yaml
pod/demo-app created

檢視 pod 狀態

$ kubectl get po |grep demo
demo-app                                                       1/1     Running   0          31s
jfsdemo-fuse-fx7np                                             1/1     Running   0          31s
jfsdemo-worker-mjplw                                           1/1     Running   0          10m

可以看到 pod 已經建立成功,同時 JuiceFS 的 Fuse 元件也啟動成功。

進入 Pod 執行 df -hT 檢視快取目錄是否掛載:

$ kubectl exec -it demo-app  bash -- df -h
Filesystem      Size  Used Avail Use% Mounted on
overlay          20G   14G  5.9G  71% /
tmpfs            64M     0   64M   0% /dev
tmpfs           3.9G     0  3.9G   0% /sys/fs/cgroup
JuiceFS:minio   1.0P  7.9M  1.0P   1% /data

可以看到這時候快取目錄已經成功掛載了。

接下來,我們在 demo-app 這個 pod 中測試一下寫功能:

$ kubectl exec -it demo-app bash
[[email protected] /]# df
Filesystem         1K-blocks     Used     Available Use% Mounted on
overlay             20751360 14585944       6165416  71% /
tmpfs                  65536        0         65536   0% /dev
tmpfs                3995028        0       3995028   0% /sys/fs/cgroup
JuiceFS:minio  1099511627776     8000 1099511619776   1% /data
/dev/sda2           20751360 14585944       6165416  71% /etc/hosts
shm                    65536        0         65536   0% /dev/shm
tmpfs                3995028       12       3995016   1% /run/secrets/kubernetes.io/serviceaccount
tmpfs                3995028        0       3995028   0% /proc/acpi
tmpfs                3995028        0       3995028   0% /proc/scsi
tmpfs                3995028        0       3995028   0% /sys/firmware
[[email protected] /]#
[[email protected] /]# cd /data
[[email protected] data]# echo "hello fluid" > hello.txt
[[email protected] data]# cat hello.txt
hello fluid

最後再來看看快取功能,在 demo-app 這個 pod 中的掛載目錄 /data 中建立一個 1G 的檔案,然後再 cp 出來:

$ kubectl exec -it demo-app  bash
[email protected]:~# dd if=/dev/zero of=/data/test.txt count=1024 bs=1M
1024+0 records in
1024+0 records out
1073741824 bytes (1.1 GB, 1.0 GiB) copied, 6.55431 s, 164 MB/s
[email protected]:~# time cp /data/test.txt ./test.txt
real	0m5.014s
user	0m0.003s
sys	0m0.702s
[email protected]:~# time cp /data/test.txt ./test.txt
real	0m0.602s
user	0m0.004s
sys	0m0.584s

從執行結果來看,第一次 cp 用了 5s,此時建立快取,第二次 cp 的時候由於快取已經存在,只用了 0.6s。JuiceFS 所提供的強大的快取能力,使得只要訪問某個檔案一次,該檔案就會被快取在本地快取路徑中中,所有接下來的重複訪問都是從 JuiceFS 中直接獲取資料。

後續規劃

目前 JuiceFSRuntime 支援的功能並不多,未來我們會繼續完善,比如 Fuse Pod 以 Nonroot 的方式執行,以及 Dataload 資料預熱功能等。

推薦閱讀: 知乎 x JuiceFS:利用 JuiceFS 給 Flink 容器啟動加速

如有幫助的話歡迎關注我們 Juicedata/JuiceFS 喲! (0ᴗ0✿)