DVC 使用案例(二):共享資料與模型檔案
這是我參與2022首次更文挑戰的第14天,活動詳情檢視:2022首次更文挑戰
與 Git 一樣,DVC 允許在分散式環境進行協作。 我們可以輕鬆地將所有資料檔案、目錄以及匹配的原始碼完全一樣地匯入任何機器。 您需要做的就是為您的 DVC 專案設定遠端儲存庫,並將資料推送到那裡,以便其他人可以訪問它。 目前 DVC 支援 Amazon S3
、Microsoft Azure Blob Storage
、Google Drive
、Google Cloud Storage
、SSH
、HDFS
和其他遠端儲存地址,並且該列表還在持續增長。 (一個完整的列表和配置說明,請參閱 dvc remote add
。)
例如,我們來為 DVC 專案設定 S3 遠端儲存,並 push
或 pull
它。
建立 S3 儲存桶
如果您的 S3 賬戶中還沒有可用的,請按照建立儲存桶中的說明進行操作。 作為更高階的可選方案,您可以改用 aws s3 mb
命令作為替代。
設定 DVC 遠端儲存
要在專案中實際配置 S3 遠端儲存,請向 dvc remote add
命令提供用來儲存資料的儲存桶 URL ,如下所示:
```bash $ dvc remote add -d myremote s3://mybucket/path
Setting 'myremote' as a default remote.
``
其中,
-d(
--default) 引數將
myremote設定為該專案的預設遠端儲存。這會將
myremote新增到您的
.dvc/config中。 配置檔案中現在有一個
remote`部分:
```toml ['remote "myremote"'] url = s3://mybucket/path
[core] remote = myremote ```
dvc remote modify
命令提供了多種配置 S3 儲存桶的引數選項。
下面,我們提交更改並推送程式碼到 Git 遠端倉庫:
$ git add .dvc/config
$ git push
上傳資料和程式碼
使用 dvc run
或其他命令將資料新增到專案後,它將儲存在本地快取中。 使用 dvc push
命令將其上傳到遠端儲存:
bash
dvc push
下載程式碼
下面使用常規的 Git 命令從您的 Git 伺服器下載程式碼和 DVC 元資料檔案。
例如,本地沒有的專案,使用git clone
:
$ git clone https://github.com/example/project.git
$ cd myproject
對於本地已有的專案,使用git pull
:
$ git pull
下載資料
為您的專案下載資料檔案,請執行dvc pull
:
$ dvc pull
dvc pull
將從 .dvc/config
檔案中配置的預設遠端儲存庫下載缺失的資料檔案。
- 2022年終總結:路雖遠,行則將至
- 監控生產環境中的機器學習模型
- 監控模型在生產環境的效能(Arize)
- DVC 使用案例(二):共享資料與模型檔案
- 純乾貨!構建Dockfile映象的十三個最佳實踐點
- 無程式碼 AI 概覽(Levity)
- 無程式碼人工智慧平臺:成功的基石(Noogata)
- 我們為什麼建立無程式碼 AI 平臺 Noogata
- 無程式碼人工智慧:它是什麼,它為什麼重要?(Noogata)
- 快速入門DVC(三):資料與模型版本管理
- 以資料為中心的人工智慧應該如何實施(Valohai)
- 如何將 MLOps 用於物聯網和邊緣裝置(Valohai)
- 無程式碼 AI 和 MLOps:無程式碼 AI 僅用於不會程式碼的終端使用者(Valohai)
- 用於 MLOps 的最佳訓練編排工具(Aporia)
- 如何理解機器學習中的偏見和公平(Aporia)
- 機器學習模型監控(Aporia)
- Arize AI 對頂級 ML 團隊調查得出的 3 個結論
- MLflow 快速入門
- Algorithmia 執行長 Diego Oppenheimer 談從研發到人工智慧的投資回報率
- 淺析Linux中的五種IO模型