全自動資料建模平臺打造建模新正規化，人人都能成為資料科學家 | 愛分析調研

語言: CN / TW / HK

時間 2022-09-26 07:07:13 閃念基因

本站內容均來自興趣收集,如不慎侵害的您的相關權益,請留言告知,我們將盡快刪除.謝謝.

調研：李進寶

撰寫：李進寶

面對百萬計的信貸客戶，信貸部門需要快速準確地判定出誰是高風險客戶；面對長長的老客戶名單，銷售部門需要精準定位復購可能性高的群體進行鍼對性營銷；面對形形色色的消費者們，門店管理部門需要預測各類產品的近期銷量以實現庫存成本最小化。依靠專家經驗來應對此類場景愈發難以適應當下時代，企業需要挖掘資料價值，用資料驅動業務，實現智慧決策。

由資料科學家、資料工程師和資料分析師等組成的資料科學團隊可以滿足企業相關需求，但也帶來了團隊建設難度大、建設成本高等一系列新問題。在產品日新月異的數智化時代，是否有合適的產品來解決這一系列新問題呢？

智慧決策愈發受到企業重視，但落地難問題亟待解決

經濟新常態下，精細化運營成為企業增長的關鍵動力，對決策質量提出了更高要求；複雜的商業環境使影響決策的因素不斷增多，做決策的難度持續上升；多變的使用者偏好，對企業決策敏捷性提出了更高要求。當下時代，依靠經驗和簡單資料分析的傳統決策愈發難以滿足企業需求，智慧決策逐漸受到企業重視。

智慧決策綜合利用機器學習、深度學習、運籌優化等多種智慧技術實現增強和自動決策，可以基於既定目標做預測，或是綜合約束條件、策略、偏好、不確定性等因素，對相關資料進行建模分析，從而自動生成最優決策。智慧決策相對於傳統決策，在計算速度，自動化程度，預測精準度等方面均有大幅提高。

智慧決策並非單純的概念，而是已經在多個行業場景實現落地，包括金融行業的精準營銷、反欺詐、反洗錢場景，零售行業的銷量預測、庫存優化場景，醫療行業的疾病預測場景，製造行業的裝置壽命預測、排產排程場景，航空行業的機場人員排班場景等。

智慧決策的實現有多種技術路徑，其中，基於機器學習的智慧決策已經被廣泛應用。機器學習技術路徑的實現方式是基於大量資料進行訓練並構建模型，進而實現決策能力，由於其擅長特徵工程的優勢，多應用於業務邏輯比較複雜的場景，例如金融反欺詐、銷量預測等。

但由於機器學習門檻高，其落地難問題一直沒有得到有效解決。一個合格的機器學習從業人員，在演算法方面需要學習機器學習、深度學習、遷移學習和增強學習，在模型方面需要學習建模、調參、自學習和上線，在資料方面需要學習特徵工程和大資料，在環境方面需要學習分散式和私有部署，在效果方面需要學習高可用、多租戶和高擴充套件，其門檻之高可見一斑。

圖1：機器學習門檻高導致的兩個現象

機器學習門檻高導致相關人才非常稀缺。2022年，浙江大學中國科教戰略研究院攜手百度聯合釋出《中國人工智慧人才培養報告》，報告顯示：我國人工智慧人才缺口高達500萬。即使存在一定的相關人才供應，也會被商湯科技、雲從科技、依圖科技、曠世科技等AI企業和百度、阿里、騰訊、位元組跳動等網際網路企業優先搶佔，其他企業存在招聘難的問題。

即使遇到了能力符合要求的人才，很多企業也無法滿足其薪酬要求。愛分析對資料科學從業人員薪資不完全統計結果顯示，2022年資料分析師和資料工程師年薪平均值在30萬-35萬區間，資料科學家年薪平均值在75萬-80萬區間。如果企業希望組建一個5人規模（1名資料科學家+4名資料分析師或資料工程師）的資料科學團隊，僅薪酬支出便會突破200萬元，很多企業難以滿足。

問題不止如此，如果企業找到了能力符合要求的機器學習人才，且願意支付相應的高薪酬，機器學習落地亦存在“低效”的問題。構建機器學習模型依賴專業程式設計技能和建模工具，工程複雜且費時費力，即使是資料科學家，建模也要耗費相當多的時間和精力。使用傳統建模產品的工作流程包括五個環節：資料準備→特徵工程→演算法調參→模型上線→應用開發，每一步都是“人+工具”的開發正規化，幾乎不存在自動化，建模效率低下。

降低機器學習門檻對企業有顯著價值。首先，企業可以快速、低成本地組建資料科學團隊，人力成本節流效果明顯。其次，企業實現傳統決策向智慧決策轉型，提升在當下時代的生存能力。最後，有利於加強企業數字化人才隊伍建設，企業數字化人才隊伍既包括資料分析師、資料工程師和資料科學家等資料科學從業人員，也包括廣大業務人員，通過資料賦能業務人員，使他們更具有戰鬥力，面對同業競爭形成降維打擊。

零門檻實現機器學習，飛算雲創解決智慧決策落地難題

在通過降低機器學習門檻進而解決智慧決策落地難問題上，飛算雲創給出瞭解決方案——全自動資料建模平臺AI.Modeler。具體而言，AI.Modeler是通過“三板斧”的方式讓機器學習門檻一降再降。

第一板斧是極致自動化，分為一鍵建模和一鍵應用兩部分。使用傳統建模產品的工作流程包括五個環節：資料準備→特徵工程→演算法調參→模型上線→應用開發，其中第二、三、四環節耗時最多，約佔總耗時的80%-90%，AI.Modeler聚焦於這些環節來實現效果最大化。

使用者準備好建模所需資料之後將其匯入AI.Modeler，大約一小時將自動生成使用者可能用到的所有結果，實現一鍵建模。模型生成之後，使用者可以進行線上預測和批量預測，實現一鍵應用。線上預測指把訓練產出的模型釋出為一個線上服務，並暴露其API埠，使用者在這裡可以通過呼叫API介面的方式進行實時線上預測，企業其他系統只需呼叫線上API即可對新資料進行預測，並且線上API介面響應時間可以控制在20ms左右。批量預測指使用者可以指定待預測的資料集，並指定要使⽤的模型，批量性地對待預估資料集進行預測。

第二板斧是極簡互動體驗。 AI.Modeler全流程零程式碼，使用者可以專注於業務問題，將過去繁重的編碼工作交給AI.Modeler自動完成，顯著提升工作效能，縮短專案週期。傳統模式下，資料科學人員需要手工寫程式碼，然後看效果和修改BUG，較多的返工嚴重影響專案進度，並且因為較長的專案週期導致模型與需求容易發生偏差。在AI.Modeler平臺上，使用者按照平臺流程化介面操作即可完成模型開發，不但提升專案交付速度，而且能保證模型與業務需求的緊密貼合。

第三板斧是場景深度結合。除了分類、迴歸等一般機器學習應用之外，飛算雲創還將金融風控行業經驗融入解決方案之中，在AI.Modeler Pro中內建了風控標準評分卡建模專屬模組，便於使用者快速建立風控模型。風控標準評分卡模型適用於金融風控、銀行信貸、企業徵信評估等應用場景，是金融領域的常用模型。

使用傳統建模產品的“人+工具”的開發正規化，幾乎不存在自動化，建模效率低下，並且需要薪酬較高的資深資料科學人員，AI.Modeler打造資料建模新正規化，讓人人都是資料科學家成為可能，相較於傳統開發正規化，對建模人員的門檻顯著降低了要求，有利於企業降低人力成本，並且以自動化的方式大大提升了模型開發上線效率。

AI.Modeler優勢顯著，給使用者帶來非凡體驗

相較於傳統編碼建模工具、拖拉拽方式機器學習平臺以及自動化建模平臺，全自動資料建模平臺AI.Modeler在產品、技術和服務方面優勢顯著，均構築了自己的護城河。

產品方面：AI.Modeler貼合用戶需求，成為使用者真正需要的產品

雙版本AI.Modeler精準滿足兩類使用者群體需求。飛算雲創根據使用者群體需求差異，推出極簡版AI.Modeler Lite和專業版AI.Modeler Pro，分別面向業務人員和資料科學人員。AI.Modeler Lite面向業務人員，他們無需專業知識即可快速建立AI模型的自動化建模平臺。AI.Modeler Lite通過自動化機器學習技術幫助企業聚焦業務、高效建立AI應用，效果媲美專業建模人員。AI.Modeler Pro是一款面向資料科學人員，集資料管理、特徵工程、演算法優化、模型解釋性分析、模型分佈於一體的自動化全流程機器學習平臺。通過AutoML技術和機器學習建模流程優化，幫助企業提升建模效率、改善模型質量、高效上線應用。

表1：AI.Modeler Lite和AI.Modeler Pro的使用者群體及核心能力

AI.Modeler融入了金融風控行業經驗。飛算雲創核心團隊在金融領域具有十年經驗，掌握覆蓋業務全流程、運營全體系的金融科技技術，具備支援銀行等金融機構零售信貸業務轉型升級的能力。受益於此，飛算雲創在擁有AutoML等前沿技術的同時，還擁有數百億資產的業務實踐，這是其他建模產品廠商難以具備的。飛算雲創在AI.Modeler Pro中內建了風控標準評分卡建模專屬模組，便於使用者快速建立風控模型。

AI.Modeler支援本地化和SaaS兩種部署方式。面對大型企業，飛算雲創可以提供本地化部署和其他配套完整解決方案輸入；面對中小型企業，飛算雲創可以提供SaaS標準化服務，給使用者帶來開箱即用的暢快體驗。

AI.Modeler 採用“全自動+零程式碼”產品思維，使用門檻顯著降低。 AI.Modeler全程自動化、零程式碼，AI.Modeler Lite對使用者沒有任何基礎技能要求，AI.Modeler Pro對使用者僅有1年資料科學從業經驗要求。傳統編碼建模工具的產品使用門檻最高，一般要求使用者有5年以上資料科學從業經驗要求，拖拉拽方式機器學習平臺以及自動化建模平臺的產品使用門檻有所降低，但也需要3年以上資料科學從業經驗要求。

AI.Modeler 採用“全自動+零程式碼”產品思維，為企業帶來更高效率。資料科學人員使用傳統編碼建模工具時需要大量手寫程式碼，效率最低。應用拖拉拽方式機器學習平臺以及自動化建模平臺減少手寫程式碼量，效率有所提升，但仍需具備建模基礎。AI.Modeler效率最高，其具有的全流程自動化能力，無需程式設計、拖拉拽，可以讓使用者專注於業務問題，將過去繁重的編碼工作交給AI.Modeler自動完成，顯著提升工作效能，縮短專案週期。

AI.Modeler助力企業技術成果沉澱並實現“中臺”式複用。傳統模型開發模式較難實現技術成果沉澱，主要有三點痛點：①模型文件編寫費時費力，大部分模型開發者的程式碼描述能力不足，經驗難以傳承；②技術難點的攻克依賴技術大牛，優秀的建模能力無法複製；③面對同一個問題，不同的資料科學人員有不同的處理方式，接手別人的程式碼需要大量時間理解其建模思維，導致低效且交接不平順。AI.Modeler可以有效解決這三個痛點，首先，AI.Modeler將優秀模型開發過程整合到平臺共享，提升團隊整體能力，努力不用重來，每步積累都作數，其次，模型開發成果轉化為標準化格式沉澱在模型倉庫，積累技術資產與標準化，並且，AI.Modeler可以實現模組即取即用，無需耗費大量時間研究建模程式碼，探索模型開發邏輯，消除人員交接的障礙。

技術方面：AI.Modeler緊跟技術潮流，充分利用開源力量

飛算雲創在AI.Modeler中使用開源框架，保持技術先進性。 AI.Modeler用到的主要開源框架包括Spring Boot和Spark。Spring Boot具有易於部署、高擴充套件性等特點，並且方便整合更多的主流元件，保證整個平臺的穩定性和安全性。Spark最主要的特點是分散式計算，適用於海量資料計算場景，不但運算速度快而且成本更低。

服務方面：AI.Modeler具備新手友好型培訓體系，可實現快速產出

飛算雲創為AI.Modeler建立了完善的培訓體系，使其具有較低學習成本。飛算雲創為AI.Modeler建立了完善的培訓體系，包括產品白皮書、線上使用手冊、產品培訓視訊、線上產品體驗等。依託全自動能力和完善的培訓體系，AI.Modeler的學習成本比較低，對於AI.Modeler Lite使用者而言，只需一天培訓即能熟練上手建模，對於AI.Modeler Pro使用者而言，經過三天培訓即可建立模型進行業務應用。

AI.Modeler在泛金融行業備受認可，已在多家知名金融機構落地應用

AI.Modeler在泛金融、零售和醫療等行業進入落地應用階段，其中以泛金融行業最為深入，已實現多個場景的成功落地，包括智慧風控、精準營銷、智慧推薦、銷量預測、客戶流失預警、逾期預測、反欺詐、反洗錢、故障預測等。

飛算雲創已經和多家知名金融機構建立合作關係，以AI.Modeler為抓手助力金融機構實現智慧決策。

案例1 某大型銀行選擇AI.Modeler，營銷轉化率實現數倍提升

需求：在該POC專案中，此銀行希望基於大資料平臺對個人客戶群體進行產品購買預測，為業務部門提供更有力的決策支撐，進而提升結構性存款產品銷量。

解決方案：在2022年6月，飛算雲創選擇行方專家模型作為本次POC專案的對標物件，通過真實客戶觸達後統計營銷結果進行線下驗證，通過真實結果證明AI.Modeler價值。

效果： POC結果顯示使用模型名單與專家模型隨機抽取的測試資料進行模型評估，確定模型的召回能力和穩定性，在實際執行營銷的3萬多客戶中，通過AI.Modeler建模的營銷轉化率為專家模型的7.9倍，且平均購買金為專家組3.6倍。並且，相較於以往的營銷建模方式，AI.Modeler展現出了更高的效率。AI.Modeler的實力和價值得到銀行的充分認可，雙方已進入正式合作階段。

案例2 AI.Modeler徹底改變京發科技建模範式，14人/天超預期完成專案

需求：在深圳京發科技控股有限公司專案中，該金融機構信貸部門目前採用傳統的人工程式設計建模方式，涉及到貸前、貸中、貸後各場景，經過多年發展，業務量日益增長，業務也趨於複雜化，建模團隊的模型任務愈發加重。目前建模人員通過編碼來實現資料獲取、資料預處理、變數篩選、演算法實現、模型開發評估、評分轉換等一系列流程，上線一個模型需要數月時間。深圳京發科技控股有限公司建模團隊面臨人手不夠與短時間內上線風險決策系統配套模型（集團年度重點專案）的專案壓力，希望藉助AI.Modeler的力量。

解決方案：通過三個方面改變該公司建模團隊的開發正規化。第一個方面是“視覺化操作介面，提升開發效能”：團隊使用AI.Modeler進行視覺化介面開發替代原來手工編碼的開發模式，可清晰按照業務邏輯，最大限度貼合需求開發業務功能，效率倍增。第二個方面是“標準化元件保證模型質量”：利用平臺提供的滿足規範驗收標準的元件進行開發，杜絕了因人工編碼造成的程式碼質量問題，節省團隊大量審程式碼、改BUG等時間成本。第三個方面是“從根源解決平臺穩定性及安全性缺陷”：AI.Modeler整合滿足國家資訊保安等級保護三級認證,要求的安全規範和管理模式，保障電商平臺的系統強壯度和安全效能。

效果： AI.Modeler上線後，徹底改變了該公司建模團隊的開發正規化，使建模團隊僅用14人/天的工作量便高效完成了模型開發，遠超預期。

用資料和智慧技術驅動業務發展，是數智化時代企業轉型的必由之路。在新一輪科技革命和產業變革浪潮下，企業家們需要思考如何順勢而為，擁抱變化。對於新技術、新產品，企業應該積極嘗試，但不應該盲目嘗試，而是結合多方面資訊綜合考慮後再進行選擇。同理，企業在為資料科學團隊選擇資料建模工具時，需要結合易用性、成本、功能等因素慎重選擇，選擇一款與自身需求緊密貼合的，能為企業帶來實際價值的產品。

「其他文章」