資料科學,為企業創造更大的資料價值

語言: CN / TW / HK
隨著全球資料總量快速增長、計算資源不斷擴張,資料科學已然成為商業活動中複雜計算場景的“助推器”,它所創造的商業價值使其逐漸在全球各大企業中佔據了重要地位。
針對這一獨特現象,沃爾瑪便將尿布和啤酒放置在同一個區域,以方便顧客快速採購,這一策略使沃爾瑪獲得了巨大的銷售收入。這就是歷史上經典的“尿布與啤酒”案例,體現了早期資料分析在零售行業的商業價值。
資料科學滲透於各行各業,在商業活動中通常需要各部門的通力合作,一起完成以下三大模組的任務:
 
因此,資料科學在商業中的實踐與發展由商業理解、資料平臺與分析計算三部分相輔相成,通過學習和挖掘資料中的有效資訊來幫助企業做出更完善、更精準的決策。
2017年,MIT斯隆管理學院在釋出的文章《Reshaping Business with Artificial Intelligence》中提到:經全球範圍的調查,大約有85%的企業相信人工智慧(AI)能使其獲取或維持他們在市場中的競爭優勢,然而大約只有20%的企業將 AI 廣泛地運用到了他們的商品或業務流程之中,並且不足39%的企業擁有一套完整的 AI 策略與流程。
因此,儘管絕大部分企業都意識到資料科學的重要性,但是他們並未開闢將資料科學與其業務結合起來的有效路徑,並且部分企業錯誤地將資料科學納入到程式設計師的工作範疇,未釐清軟體開發與模型搭建之間的本質區別。模型搭建在資料科學的生命週期中起到了重要的一環,本質上,模型的體系主要是通過運用數學知識(如監督學習、非監督學習、強化學習等演算法)處理大量資料來搭建的。
一套科學、標準的資料科學流程對於企業來說至關重要,而每個企業的資料科學流程又略微不同。企業會根據自己的商業特色打造適合自己的資料科學流程。在這裡,我們將介紹一套完整、全面的資料科學流程以供大家參考,其主要涉及到以下四大任務模組:
  • 產品管理模組
  • 資料工程模組
  • 資料科學模組
  • 機器學習工程和 MLOps 模組

產品管理模組是這套資料科學流程中的第一個步驟,涉及到多種跨職能的團隊合作,其中主要包括業務人員、資料工程師、資料科學家、商業分析師等角色。在這個模組中,大家通常會在專案初期一起確定商業問題、提出解決方案並制定詳細的工作計劃。在工作計劃裡,資料工程師和資料科學家需要根據業務人員和商業分析師提供的商業環境資訊,深入理解需求,確定符合條件的資料來源並保證其可用性。資料科學家還需要根據需求確定最優模型,其中包括模型所需要的資源、環境和依賴包等。
由於大部分資料科學專案的流程都是高度迭代的,一些優秀的企業在產品管理階段會對迭代進行有效的調整,將迭代過程對最終目標的影響降到最低。與此同時,企業也會對資料科學專案的流程進行拓展探討,使其可以根據未來的專案計劃縮減或擴充套件,持續服務於資料驅動的業務運營。

在資料工程模組中,主要由資料工程師來負責對資料進行一系列的操作,為建模提供資料和相應的技術支援,如資料管道和平臺事務管理。在與專案參與的各方確定了符合條件的資料來源後,資料工程師一般通過以下五個步驟來形成一個完整的資料生命週期:
  1. 資料收集階段: 資料工程師通過直接或間接的方式去生產或收集資料。
  2. 資料處理與分析階段: 在收集到資料集之後,資料工程師需要對這些資料進行清洗和格式的轉換,並對這些資料進行處理。
  3. 資料描述與組織階段: 在處理完資料之後,資料工程師需要對資料檔案進行命名、格式標準化、版本控制以及元資料建立等。
  4. 資料儲存階段: 在資料儲存階段,主要的目標是使資料長期儲存而不被丟失。一般可通過離線儲存或線上儲存兩種方式儲存資料。
  5. 資料釋出或共享階段: 在資料釋出或共享階段,資料工程師需要建立資料管道以方便資料科學家和商業分析師呼叫相關資料。

資料科學模組主要以模型為中心,由資料科學家主導。在模型實驗階段,資料科學家將資料匯入至資料平臺工作區,結合商業理解,使用各類程式語言(如 Python、Java、C++ 等)搭建最符合專案需求的模型,隨後進行微調優化,並記錄模型的引數和指標。在構建模型的過程中,選擇合適的演算法對預測專案的結果來說至關重要,以下是三種最常用的演算法型別:
  • 監督學習(Supervised Learning): 機器學習的一種方法,從有標記的訓練資料中推匯出預測函式,並以此函式預測新的例項。函式的輸出值可以是一個連續的值,也可以是一個分類標籤。
  • 非監督學習(Unsupervised Learning): 機器學習的一種方法,從無標記的訓練資料中推斷內在結構,自動對輸入的資料進行分類或分組。
  • 強化學習(Reinforcement Learning): 一種通過試錯學習決定下一步行動方案的學習任務,努力使回報最大化。
在生產環境中,許多資料科學相關的模型已經得到了大範圍的應用,並獲得了巨大的成功。比如在社交軟體場景下,當某使用者點贊時,模型會對點讚的內容進行分類。如果點讚的內容與籃球相關,模型會將該使用者納入與籃球特徵相關的子集中,並以此來向該使用者推送相關廣告。對經營社交軟體的企業來說,廣告收入是其利潤的重要組成部分。這一類根據使用者喜好推送廣告的模型不僅增加了使用者粘性,在提升使用者使用感的同時也給企業帶來了不菲的經濟效益。
在模型開發階段,資料科學家會對模型進行開發、訓練和測試。在這個過程中,資料科學家需要充分理解模型特徵、測量和分析模型的結果,保證模型的公平性和穩定性以及應對新資料的能力。

在機器學習工程和MLOps模組中,資料科學家通過匯入資料工程相關的依賴包建立資料管道,並採用機器學習運維(MLOps)實現模型的自動化程序,其中包括自動驗證資料、訓練以及預測等。在模型達到專案預期效果後,資料科學家聯合 MLOps 團隊建立 API,將模型部署到應用程式中投入生產環境下使用,並根據具體的業務需求實時做出預測。在此過程中,機器學習工程和 MLOps 會對平臺、系統以及模型的表現進行持續性地監督,預防模型在自動化程序中出現差錯。如果監測到任何與模型應用相關的問題,MLOps 團隊會先嚐試調研和解決,如有必要再聯絡相關團隊進行分析和處理。
在大資料領域的發展歷程中,逐漸衍生出了許多成熟且廣泛使用的平臺與工具。與此同時,雲端計算技術生態發展不斷成熟,企業上雲步伐不斷加快,雲計算髮展也成為大勢所趨。資料科學作為一門緊跟大資料時代潮流的前沿科學,旨在藉助雲平臺的算力資源更為有效地學習資料、處理資料以及構建模型,從而最大程度地發揮資料中潛在的價值。這其中經常使用到的平臺與工具包括:
  • 資料平臺: AWS、GCP、Snowflake、Databricks、PieCloudDB 等。
  • 分析計算工具: Excel、Python (Pandas、NumPy、Scikit-learn、Matplotlib、Seaborn、Tensorflow) 等。
  • 商業智慧工具: Excel、Power BI、Tableau、帆軟等。
為了助力企業更好地實現資料科學在商業領域的價值,OpenPie 在打造雲原生資料庫產品 PieCloudDB Database 的同時,特別設立了資料科學團隊,為企業提供專業的資料科學服務,使使用者可以通過PieCloudDB完成資料生命週期內的一系列資料操作。OpenPie 旗下的資料科學服務(Data Science Lab)為企業設計以資料驅動的業務場景框架,賦能企業實現 AI 和機器學習、商業智慧等價值創造,憑藉 PieCloudDB 雲原生資料庫的強大功能、團隊專業的數學模型方法論和技術,讓企業真正專注於從海量資料和高速計算中挖掘資料本身的價值。
 
 
 

 

參考資料: