DVC 使用案例(二):共享資料與模型檔案

語言: CN / TW / HK

這是我參與2022首次更文挑戰的第14天,活動詳情檢視:2022首次更文挑戰

與 Git 一樣,DVC 允許在分散式環境進行協作。 我們可以輕鬆地將所有資料檔案、目錄以及匹配的原始碼完全一樣地匯入任何機器。 您需要做的就是為您的 DVC 專案設定遠端儲存庫,並將資料推送到那裡,以便其他人可以訪問它。 目前 DVC 支援 Amazon S3Microsoft Azure Blob StorageGoogle DriveGoogle Cloud StorageSSHHDFS 和其他遠端儲存地址,並且該列表還在持續增長。 (一個完整的列表和配置說明,請參閱 dvc remote add。)

資料儲存在您控制的儲存中,與程式碼分開

例如,我們來為 DVC 專案設定 S3 遠端儲存,並 pushpull 它。

建立 S3 儲存桶

如果您的 S3 賬戶中還沒有可用的,請按照建立儲存桶中的說明進行操作。 作為更高階的可選方案,您可以改用 aws s3 mb 命令作為替代。

設定 DVC 遠端儲存

要在專案中實際配置 S3 遠端儲存,請向 dvc remote add 命令提供用來儲存資料的儲存桶 URL ,如下所示:

```bash $ dvc remote add -d myremote s3://mybucket/path

Setting 'myremote' as a default remote. `` 其中,-d(--default) 引數將myremote設定為該專案的預設遠端儲存。這會將myremote新增到您的.dvc/config中。 配置檔案中現在有一個remote`部分:

```toml ['remote "myremote"'] url = s3://mybucket/path

[core] remote = myremote ```

dvc remote modify 命令提供了多種配置 S3 儲存桶的引數選項。

下面,我們提交更改並推送程式碼到 Git 遠端倉庫: $ git add .dvc/config $ git push

上傳資料和程式碼

使用 dvc run 或其他命令將資料新增到專案後,它將儲存在本地快取中。 使用 dvc push 命令將其上傳到遠端儲存:

bash dvc push

下載程式碼

下面使用常規的 Git 命令從您的 Git 伺服器下載程式碼和 DVC 元資料檔案。

例如,本地沒有的專案,使用git clone

$ git clone https://github.com/example/project.git $ cd myproject

對於本地已有的專案,使用git pull

$ git pull

下載資料

為您的專案下載資料檔案,請執行dvc pull

$ dvc pull dvc pull 將從 .dvc/config 檔案中配置的預設遠端儲存庫下載缺失的資料檔案。