如何在 Kubernetes 叢集中玩轉 Fluid + JuiceFS
雲知聲 Atlas 團隊在 2021 年初開始接觸並跟進 JuiceFS 儲存,並且在早期已經積累了豐富的 Fluid 使用經驗。近期,雲知聲團隊與 Juicedata 團隊合作開發了 Fluid JuiceFS 加速引擎,使使用者能夠更好地在 Kubernetes 環境中使用 JuiceFS 快取管理能力。本篇文章講解如何在 Kubernetes 叢集中玩轉 Fluid + JuiceFS。
背景介紹
Fluid 簡介
CNCF Fluid 是一個開源的 Kubernetes 原生的分散式資料集編排和加速引擎,主要服務於雲原生場景下的資料密集型應用,例如大資料應用、AI 應用等,關於 Fluid 更多資訊可以參考地址。
Fluid 不是全儲存加速和管理,而是應用使用的資料集加速和管理。Fluid 提供了一種更加雲原生的方式對資料集進行管理,通過快取加速引擎實現將底層儲存系統的資料 cache 在計算節點的記憶體或者硬碟上,解決了計算與儲存分離架構中由於資料傳輸頻寬限制以及底層儲存頻寬與 IOPS 能力限制等問題,導致的 IO 效率不高等問題。Fluid 提供快取資料排程能力,快取被納入 kubernetes 擴充套件資源,kubernetes 在進行任務的排程的時候,能夠參考快取進行排程策略的分配。
Fluid 有 2個重要的概念:Dataset 與 Runtime
- Dataset: 資料集是邏輯上相關的一組資料的集合,一致的檔案特性,會被同一運算引擎使用。
- Runtime: 實現資料集安全性,版本管理和資料加速等能力的執行引擎的介面,定義了一系列生命週期的方法。
Fluid 的 Runtime 定義了標準化的介面,Cache Runtime Engine 可以對接多種快取引擎,提供了使用者更靈活的選擇,使用者能夠針對不同的場景與需求,充分利用快取引擎加速相應的場景應用。
JuiceFS 簡介
JuiceFS 是一個面向雲環境設計的高效能開源分散式檔案系統,完全相容 POSIX、HDFS、S3 介面,適用於大資料、AI 模型訓練、Kubernetes 共享儲存、海量資料歸檔管理等場景。
使用 JuiceFS 儲存資料,資料本身會被持久化在物件儲存(例如,Amazon S3),而資料所對應的元資料可以根據場景需求被持久化在 Redis、MySQL、TiKV 等多種資料庫引擎中。JuiceFS 客戶端具有資料快取能力,當通過 JuiceFS 客戶端讀取資料時,這些資料將會智慧地快取到應用配置的本地快取路徑(可以是記憶體,也可以是磁碟),同時元資料也會快取到客戶端節點本地記憶體中。
對於 AI 模型訓練場景來說,第一個 epoch 完成之後後續的計算都可以直接從快取中獲取訓練資料,極大地提升了訓練效率。JuiceFS 也具有預讀、併發讀取資料的能力,在 AI 訓練場景能夠保證每個 mini-batch 的生成效率,提前準備好資料。資料預熱能夠提前將公有云上的資料換到到本地節點,對於 AI 訓練場景能夠保證申請完 GPU 資源後,即有預熱的資料進行運算,為寶貴的 GPU 使用節省了時間。
為什麼使用 JuiceFSRuntime
雲知聲 Atlas 超算平臺作為底層基礎架構,支援著公司在 AI 各個領域的模型訓練與推理服務的開展。雲知聲很早就開始佈局建設業界領先的 GPU/CPU 異構 Atlas 計算平臺和分散式檔案儲存系統,該計算叢集可為 AI 計算提供高效能運算和海量資料的儲存訪問能力。雲知聲 Atlas 團隊在 2021 年初開始接觸並跟進 JuiceFS 儲存,進行了一系列 POC 測試,在資料可靠性與業務場景的適配,都滿足我們目前的需求。
在訓練場景我們充分利用 JuiceFS 客戶端的快取能力,為 AI 模型訓練做資料加速,但是在使用過程中發現了一些問題:
- 訓練 Pod 通過 hostpath 掛載,需要在每個計算節點掛載 JuiceFS 客戶端,掛載需要管理員操作,掛載引數固定,不夠靈活。
- 使用者無法對計算節點客戶端的快取管理,快取無法手動清理與擴容。
- 快取資料集無法像 Kubernetes 自定義資源一樣能夠被 kubernetes 進行排程。
由於我們在生產環境已經積累了一定的 Fluid 使用經驗,所以我們與 Juicedata 團隊合作設計並開發了 JuiceFSRuntime,將 Fluid 對資料編排與管理能力和 JuiceFS 的快取能力結合起來。
什麼是 Fluid + JuiceFS(JuiceFSRuntime)
JuiceFSRuntime 是 Fluid 自定義的一種 Runtime,其中可以指定 JuiceFS 的 worker、fuse 映象以及相應的快取引數。其構建方式與 Fluid 其他 Runtime 一致,即通過 CRD 的方式構建,JuiceFSRuntime Controller 監聽 JuiceFSRuntime 資源,實現快取 Pod 的管理。
JuiceFSRuntime 支援資料親和性排程(nodeAffinity),選擇合適的快取節點,支援 Fuse pod 懶啟動,支援使用者以 POSIX 介面訪問資料,目前只支援一個掛載點。
其架構圖如上圖所示,JuiceFSRuntime 由 Fuse Pod 與 Worker Pod 組成。Worker pod 主要實現快取的管理,如 Runtime 退出時的快取清理;Fuse pod 主要負責 JuiceFS 客戶端的引數設定及掛載。
如何使用 JuiceFSRunime
下面來看看如何使用 JuiceFSRuntime 進行快取加速。
前期準備
要使用 JuiceFSRuntime 首先需要準備元資料引擎和物件儲存。
構建元資料引擎
使用者可以很容易的在雲端計算平臺購買到各種配置的雲 Redis 資料庫,如果是評估測試使用可以使用 Docker 快速的在伺服器上執行一個 Redis 資料庫例項:
$ sudo docker run -d --name redis \
-v redis-data:/data \
-p 6379:6379 \
--restart unless-stopped \
redis redis-server --appendonly yes
準備物件儲存
和 Redis 資料庫一樣,幾乎所有的公有云計算平臺都提供物件儲存服務。因為 JuiceFS 支援幾乎所有主流平臺的物件儲存服務,使用者可以結合自己的情況進行部署。
這裡是評估測試應該使用的是 Dokcer 執行的 minio 例項:
$ $ sudo docker run -d --name minio \
-p 9000:9000 \
-p 9900:9900 \
-v $PWD/minio-data:/data \
--restart unless-stopped \
minio/minio server /data --console-address ":9900"
物件儲存初始的 Access Key 和 Secret Key 均為 minioadmin。
下載並安裝 Fluid
按照文件步驟安裝 Fluid,在 Fluid 的安裝 chart values.yaml
中將 runtime.juicefs.enable
設定為 true,並安裝 Fluid。確保 Fluid 叢集正常執行:
kubectl get po -n fluid-system
NAME READY STATUS RESTARTS AGE
csi-nodeplugin-fluid-ctc4l 2/2 Running 0 113s
csi-nodeplugin-fluid-k7cqt 2/2 Running 0 113s
csi-nodeplugin-fluid-x9dfd 2/2 Running 0 113s
dataset-controller-57ddd56b54-9vd86 1/1 Running 0 113s
fluid-webhook-84467465f8-t65mr 1/1 Running 0 113s
juicefsruntime-controller-56df96b75f-qzq8x 1/1 Running 0 113s
確保 juicefsruntime-controller
、dataset-controller
、fluid-webhook
的 pod
以及若干 csi-nodeplugin pod
正常執行。
建立 Dataset
在使用 JuiceFS 之前,需要提供元資料服務(如 redis)及物件儲存服務(如 minio)的引數,並建立對應的 secret:
kubectl create secret generic jfs-secret \
--from-literal=metaurl=redis://$IP:6379/1 \ # redis 的地址 IP 為 redis 所在節點的 IP
--from-literal=access-key=minioadmin \ # 物件儲存的 ak
--from-literal=secret-key=minioadmin #物件儲存的 sk
建立 Dataset yaml 檔案
cat<<EOF >dataset.yaml
apiVersion: data.fluid.io/v1alpha1
kind: Dataset
metadata:
name: jfsdemo
spec:
mounts:
- name: minio
mountPoint: "juicefs:///demo"
options:
bucket: "<bucket>"
storage: "minio"
encryptOptions:
- name: metaurl
valueFrom:
secretKeyRef:
name: jfs-secret
key: metaurl
- name: access-key
valueFrom:
secretKeyRef:
name: jfs-secret
key: access-key
- name: secret-key
valueFrom:
secretKeyRef:
name: jfs-secret
key: secret-key
EOF
由於 JuiceFS 採用的是本地快取,對應的 Dataset 只支援一個 mount,且 JuiceFS 沒有 UFS,mountpoint 中可以指定需要掛載的子目錄 ("juicefs:///" 為根路徑),會作為根目錄掛載到容器內。
建立 Dataset 並檢視 Dataset 狀態
$ kubectl create -f dataset.yaml
dataset.data.fluid.io/jfsdemo created
$ kubectl get dataset jfsdemo
NAME UFS TOTAL SIZE CACHED CACHE CAPACITY CACHED PERCENTAGE PHASE AGE
jfsdemo NotBound 44s
如上所示,status 中的 phase 屬性值為 NotBound,這意味著該 Dataset 資源物件目前還未與任何 JuiceFSRuntime 資源物件繫結,接下來,我們將建立一個 JuiceFSRuntime 資源物件。
建立 JuiceFSRuntime
建立 JuiceFSRuntime 的 yaml 檔案
$ cat<<EOF >runtime.yaml
apiVersion: data.fluid.io/v1alpha1
kind: JuiceFSRuntime
metadata:
name: jfsdemo
spec:
replicas: 1
tieredstore:
levels:
- mediumtype: SSD
path: /cache
quota: 40960 # JuiceFS 中 quota 的最小單位是 MiB,所以這裡是 40GiB
low: "0.1"
EOF
建立並檢視 JuiceFSRuntime
$ $ kubectl create -f runtime.yaml
juicefsruntime.data.fluid.io/jfsdemo created
$ kubectl get juicefsruntime
NAME WORKER PHASE FUSE PHASE AGE
jfsdemo Ready Ready 72s
檢視 JuiceFS 相關元件 Pod 的狀態
$$ kubectl get po |grep jfs
jfsdemo-worker-mjplw 1/1 Running 0 4m2s
JuiceFSRuntime 沒有 master 元件,而 Fuse 元件實現了懶啟動,會在 pod 使用時再建立。
建立快取加速作業
建立需要加速的應用,其中 Pod 使用上面建立的 Dataset 的方式為指定同名的 PVC
$ cat<<EOF >sample.yaml
apiVersion: v1
kind: Pod
metadata:
name: demo-app
spec:
containers:
- name: demo
image: nginx
volumeMounts:
- mountPath: /data
name: demo
volumes:
- name: demo
persistentVolumeClaim:
claimName: jfsdemo
EOF
建立 Pod
$ kubectl create -f sample.yaml
pod/demo-app created
檢視 pod 狀態
$ kubectl get po |grep demo
demo-app 1/1 Running 0 31s
jfsdemo-fuse-fx7np 1/1 Running 0 31s
jfsdemo-worker-mjplw 1/1 Running 0 10m
可以看到 pod 已經建立成功,同時 JuiceFS 的 Fuse 元件也啟動成功。
進入 Pod 執行 df -hT
檢視快取目錄是否掛載:
$ kubectl exec -it demo-app bash -- df -h
Filesystem Size Used Avail Use% Mounted on
overlay 20G 14G 5.9G 71% /
tmpfs 64M 0 64M 0% /dev
tmpfs 3.9G 0 3.9G 0% /sys/fs/cgroup
JuiceFS:minio 1.0P 7.9M 1.0P 1% /data
可以看到這時候快取目錄已經成功掛載了。
接下來,我們在 demo-app 這個 pod 中測試一下寫功能:
$ kubectl exec -it demo-app bash
[[email protected] /]# df
Filesystem 1K-blocks Used Available Use% Mounted on
overlay 20751360 14585944 6165416 71% /
tmpfs 65536 0 65536 0% /dev
tmpfs 3995028 0 3995028 0% /sys/fs/cgroup
JuiceFS:minio 1099511627776 8000 1099511619776 1% /data
/dev/sda2 20751360 14585944 6165416 71% /etc/hosts
shm 65536 0 65536 0% /dev/shm
tmpfs 3995028 12 3995016 1% /run/secrets/kubernetes.io/serviceaccount
tmpfs 3995028 0 3995028 0% /proc/acpi
tmpfs 3995028 0 3995028 0% /proc/scsi
tmpfs 3995028 0 3995028 0% /sys/firmware
[[email protected] /]#
[[email protected] /]# cd /data
[[email protected] data]# echo "hello fluid" > hello.txt
[[email protected] data]# cat hello.txt
hello fluid
最後再來看看快取功能,在 demo-app 這個 pod 中的掛載目錄 /data
中建立一個 1G 的檔案,然後再 cp 出來:
$ kubectl exec -it demo-app bash
[email protected]:~# dd if=/dev/zero of=/data/test.txt count=1024 bs=1M
1024+0 records in
1024+0 records out
1073741824 bytes (1.1 GB, 1.0 GiB) copied, 6.55431 s, 164 MB/s
[email protected]:~# time cp /data/test.txt ./test.txt
real 0m5.014s
user 0m0.003s
sys 0m0.702s
[email protected]:~# time cp /data/test.txt ./test.txt
real 0m0.602s
user 0m0.004s
sys 0m0.584s
從執行結果來看,第一次 cp 用了 5s,此時建立快取,第二次 cp 的時候由於快取已經存在,只用了 0.6s。JuiceFS 所提供的強大的快取能力,使得只要訪問某個檔案一次,該檔案就會被快取在本地快取路徑中中,所有接下來的重複訪問都是從 JuiceFS 中直接獲取資料。
後續規劃
目前 JuiceFSRuntime 支援的功能並不多,未來我們會繼續完善,比如 Fuse Pod 以 Nonroot 的方式執行,以及 Dataload 資料預熱功能等。
推薦閱讀: 知乎 x JuiceFS:利用 JuiceFS 給 Flink 容器啟動加速
如有幫助的話歡迎關注我們 Juicedata/JuiceFS 喲! (0ᴗ0✿)
- JuiceFS 在資料湖儲存架構上的探索
- JuiceFS 在資料湖儲存架構上的探索
- JuiceFS 快取預熱詳解
- JuiceFS 快取預熱詳解
- 巧用 JuiceFS Sync 命令跨雲遷移和同步資料
- 巧用 JuiceFS Sync 命令跨雲遷移和同步資料
- 老同事拉我創業,做一家開源儲存公司
- 小團隊如何妙用 JuiceFS
- 社群投稿|小團隊如何妙用 JuiceFS
- CSI 工作原理與JuiceFS CSI Driver 的架構設計詳解
- JuiceFS CSI Driver 架構設計詳解
- 怎麼做 HDFS 的原地平滑縮容?
- 來自開源社群的她力量
- 雲上共享檔案系統的相容性大比拼
- 用 JuiceFS 備份 Nginx 日誌可以這麼簡單
- 讓 JuiceFS 幫你做好「異地備份」
- iGear 用了這個小魔法,模型訓練速度提升 300%
- JuiceFS 在理想汽車的使用和展望
- 嫌 OSS 查詢太慢?看我們如何將速度提升 10 倍!
- JuiceFS 在理想汽車的使用和展望