RDS MySQL Machine Learning服務公測
隨著近些年雲端計算、人工智慧的推廣普及,雲資料庫和AI的結合已經成為趨勢和潮流。“智慧化”是阿里雲資料庫的戰略發展方向之一,結合資料庫對資料“近水樓臺”的優勢,我們希望利用DB相關技術來優化AI流程,讓RDS內建機器學習服務,快速支撐AI業務發展,助力使用者業務智慧:RDS MySQL機器學習服務應運而生。
初識RDS MySQL機器學習
RDS MySQL Machine Learning是一種整合在RDS MySQL內的全託管機器學習解決方案,通過內建機器學習服務以及SQL實現能力擴充套件,快速支撐客戶業務發展。RDS MySQL Machine Learning在資料庫代理的基礎上提供服務,給使用者提供一個統一的資料訪問和機器學習操作入口。
內建機器學習算力 比傳統機器學習更便捷
傳統機器學習的資料智慧應用實現流程複雜,包含資料處理、特徵工程、模型訓練、部署、服務等多個階段,需要許多不同系統、元件和人員來完成,涉及大量開發運維管理工作。
此外使用機器服務需要的技術門檻比較高,一般需要對資料進行清洗、標註的資料工程師,還需要掌握高階語言(Python/R)的AI演算法專家,懂得使用和應用AI模型的業務工程師等等。此外需要頻繁從資料來源(包括資料庫、大資料、物件儲存等)和AI框架之間移動資料,增加了資料風險和大量的運維操作。
針對以上痛點,RDS MySQL機器學習通過架構整合使之簡單化,方便客戶更好的應用機器學習技術。
下圖是"傳統機器學習架構" VS "RDS MySQL機器學習架構":
RDS MySQL內建了機器學習算力,發揮雲資料庫RDS的服務優勢,降低人工智慧應用的技術門檻,讓技術人員使用AI如同操作SQL一樣簡單。通過擴充套件的SQL,即可實現機器學習模型的訓練、部署、預測和管理操作,節省了大量時間和人力成本。
RDS MySQL機器學習優勢&範例
RDS MySQL機器學習有如下核心優勢:
自動化的模型訓練
RDS MySQL機器學習會根據您定義的訓練資料集和演算法自動進行模型建立和訓練,通過使用者指定的模型和預測資料集自動生成預測結果;
簡易的模型管理
通過表來記錄模型資訊,提供完整的模型管理能力;
擴充套件的SQL訪問
與AI相關的操作都通過擴充套件的SQL來實現,讓您可以和操作資料庫一樣來操作機器學習的流程。例如模型的建立、訓練、預測等;
資料安全
指定用於模型訓練的資料以及模型只會在RDS服務內部流轉,不會離開RDS服務,保證資料的安全性;
下面通過範例進行進行具體講解:
擴充套件的SQL訪問
-
與AI相關的操作都通過擴充套件的SQL來實現,讓您可以和操作資料庫一樣來操作機器學習的流程。例如模型的建立、訓練、預測等。
-
QUERY_OP_AI_TRAIN ,訓練介面BNF
SELECT select_expr [, select_expr ...]
FROM table_references
[WHERE where_condition]
[LIMIT row_count]
TO TRAIN model_identifier
[WITH
model_attr_expr [, model_attr_expr ...]
[, train_attr_expr ...]]
COLUMN column_expr [, column_expr ...]
| COLUMN column_expr [, column_expr ...] FOR column_name
[COLUMN column_expr [, column_expr ...] FOR column_name ...]
[LABEL label_expr]
INTO table_references
[ASYNC];
-
QUERY_OP_AI_PREDICT ,預測介面BNF
SELECT select_expr [, select_expr ...]
FROM table_references
[WHERE where_condition]
[LIMIT row_count]
TO PREDICT result_table_reference
[WITH
attr_expr [, attr_expr ...]]
LABEL class
USING model_table_reference;
自動化的模型訓練
-
RDS MySQL機器學習會根據您定義的訓練資料集和演算法自動進行模型建立和訓練,通過使用者指定的模型和預測資料集自動生成預測結果
簡易的模型管理
-
通過表來記錄模型資訊,提供完整的模型管理能力
-
查詢訓練任務/模型
-- 檢視訓練任務
show train;
-- 檢視模型
show models;
資料安全
-
您指定用於模型訓練的資料以及模型只會在RDS服務內部流轉,不會離開RDS服務,保證資料的安全性。
路由決策
資料庫代理實現對使用者讀寫query和機器學習操作query的路由決策和轉發,分別路由到後端資料庫引擎和機器學習計算平臺上。客戶端傳入的query轉換為MySQL Packet,資料庫代理解析、轉化MySQL資料包之後進行路由,具體流程如下所示:
-
Packet Deconder: 將二進位制格式的MySQL Packet轉換為字串格式的MySQL Query String,用於後續的SQL Parser解析出SQL Query的AST
-
Extended SQL Scanner: 用於掃描MySQL Packet中的query,將機器學習相關query與資料庫讀寫相關query分別路由
正是因為RDS MySQL有如上特點,在很多客戶業務場景,使用機器學習能夠獲得更好的效果,例如通過機器學習加工處理RDS MySQL資料,實現業務智慧推薦的場景;以及在機器學習過程中對資料安全有要求,風控識別的場景等。
未來可期
RDS MySQL機器學習服務剛剛啟動公測,目前的預覽版的使用說明可參考:公測版使用說明 (詳情請點選下方 “閱讀原文” )
目前已經支援模型訓練(TRAIN)與預測(PREDICT),RDS機器學習服務未來會逐漸提供更豐富的能力,例如RDS Postg reSQL機器學習服務、模型自動優化、更高效能的機器學習演算法、擴充套件更多機器學習訓練框架服務(如遠端聯動雲AI服務)、Serveless能力等,屆時在體驗、功能豐富度、效能、擴充套件性上都會有更多的期待。 期待大家公測體驗的反饋,希望有更近一步的技術或業務解決方案的探討。
作者資訊
謝家森,花名果實,負責RDS資料庫代理整體相關的管控研發工作。您有RDS資料庫代理等相關問題,請聯絡郵件:[email protected]
推薦閱讀
點選 “閱讀原文” 檢視 RDS MySQL機器學習 的公測版使用說明
- 資料庫數字孿生技術獲突破,Ganos兩項研究成果入選VLDB
- PolarDB-X核心新版本:將MySQL進行到底
- 從DynamoDB 2022 Paper回看Lindorm的一些設計
- 對話 | PolarDB for MySQL 雲原生多主架構解讀
- 軌跡資料處理“小鋼炮”,Lindorm時空引擎Ganos實測
- 深入解析 RDS Serverless 之 Data API
- 科技雷達|李飛飛:雲原生資料庫是大勢所趨
- 再獲國際頂會認可!阿里雲資料庫7篇論文入選VLDB
- 我,PolarDB雲原生資料庫,5年來實現這些重磅技術創新
- TiDB、OceanBase、PolarDB-X、CockroachDB二級索引寫入效能測評
- RDS MySQL Machine Learning服務公測
- 10倍壓縮比?Lindorm與其他資料庫實測大比拼
- 阿里雲NoSQL資料庫,啟動自研加速計劃2.0
- PolarDB助力易倉打造跨境行業生態鏈協同的產業鏈SaaS
- 雲資料庫RDS MySQL Serverless已來
- 友邦人壽可觀測體系設計與落地
- 一文剖析PolarDB HTAP的列存資料壓縮
- RDS AliSQL 面向 Binlog 的效能優化大揭密(上)—— 極致 IO 優化
- 從Dva到Redux ToolKit,現代Redux的演進
- 過去5年,PolarDB雲原生資料庫是如何進行效能優化的?