全自動數據建模平台打造建模新範式,人人都能成為數據科學家 | 愛分析調研

語言: CN / TW / HK

本站內容均來自興趣收集,如不慎侵害的您的相關權益,請留言告知,我們將盡快刪除.謝謝.

調研:李進寶

撰寫:李進寶

面對百萬計的信貸客户,信貸部門需要快速準確地判定出誰是高風險客户;面對長長的老客户名單,銷售部門需要精準定位復購可能性高的羣體進行鍼對性營銷;面對形形色色的消費者們,門店管理部門需要預測各類產品的近期銷量以實現庫存成本最小化。依靠專家經驗來應對此類場景愈發難以適應當下時代,企業需要挖掘數據價值,用數據驅動業務,實現智能決策。

由數據科學家、數據工程師和數據分析師等組成的數據科學團隊可以滿足企業相關需求,但也帶來了團隊建設難度大、建設成本高等一系列新問題。在產品日新月異的數智化時代,是否有合適的產品來解決這一系列新問題呢?

01

智能決策愈發受到企業重視,但落地難問題亟待解決

經濟新常態下,精細化運營成為企業增長的關鍵動力,對決策質量提出了更高要求;複雜的商業環境使影響決策的因素不斷增多,做決策的難度持續上升;多變的用户偏好,對企業決策敏捷性提出了更高要求。當下時代,依靠經驗和簡單數據分析的傳統決策愈發難以滿足企業需求,智能決策逐漸受到企業重視。

智能決策綜合利用機器學習、深度學習、運籌優化等多種智能技術實現增強和自動決策,可以基於既定目標做預測,或是綜合約束條件、策略、偏好、不確定性等因素,對相關數據進行建模分析,從而自動生成最優決策。智能決策相對於傳統決策,在計算速度,自動化程度,預測精準度等方面均有大幅提高。

智能決策並非單純的概念,而是已經在多個行業場景實現落地,包括金融行業的精準營銷、反欺詐、反洗錢場景,零售行業的銷量預測、庫存優化場景,醫療行業的疾病預測場景,製造行業的設備壽命預測、排產排程場景,航空行業的機場人員排班場景等。

智能決策的實現有多種技術路徑,其中,基於機器學習的智能決策已經被廣泛應用。機器學習技術路徑的實現方式是基於大量數據進行訓練並構建模型,進而實現決策能力,由於其擅長特徵工程的優勢,多應用於業務邏輯比較複雜的場景,例如金融反欺詐、銷量預測等。

但由於機器學習門檻高,其落地難問題一直沒有得到有效解決。一個合格的機器學習從業人員,在算法方面需要學習機器學習、深度學習、遷移學習和增強學習,在模型方面需要學習建模、調參、自學習和上線,在數據方面需要學習特徵工程和大數據,在環境方面需要學習分佈式和私有部署,在效果方面需要學習高可用、多租户和高擴展,其門檻之高可見一斑。

圖1:機器學習門檻高導致的兩個現象

機器學習門檻高導致相關人才非常稀缺。2022年,浙江大學中國科教戰略研究院攜手百度聯合發佈《中國人工智能人才培養報告》,報告顯示:我國人工智能人才缺口高達500萬。即使存在一定的相關人才供應,也會被商湯科技、雲從科技、依圖科技、曠世科技等AI企業和百度、阿里、騰訊、字節跳動等互聯網企業優先搶佔,其他企業存在招聘難的問題。

即使遇到了能力符合要求的人才,很多企業也無法滿足其薪酬要求。愛分析對數據科學從業人員薪資不完全統計結果顯示,2022年數據分析師和數據工程師年薪平均值在30萬-35萬區間,數據科學家年薪平均值在75萬-80萬區間。如果企業希望組建一個5人規模(1名數據科學家+4名數據分析師或數據工程師)的數據科學團隊,僅薪酬支出便會突破200萬元,很多企業難以滿足。

問題不止如此,如果企業找到了能力符合要求的機器學習人才,且願意支付相應的高薪酬,機器學習落地亦存在“低效”的問題。構建機器學習模型依賴專業程序設計技能和建模工具,工程複雜且費時費力,即使是數據科學家,建模也要耗費相當多的時間和精力。使用傳統建模產品的工作流程包括五個環節:數據準備→特徵工程→算法調參→模型上線→應用開發,每一步都是“人+工具”的開發範式,幾乎不存在自動化,建模效率低下。

降低機器學習門檻對企業有顯着價值。首先,企業可以快速、低成本地組建數據科學團隊,人力成本節流效果明顯。其次,企業實現傳統決策向智能決策轉型,提升在當下時代的生存能力。最後,有利於加強企業數字化人才隊伍建設,企業數字化人才隊伍既包括數據分析師、數據工程師和數據科學家等數據科學從業人員,也包括廣大業務人員,通過數據賦能業務人員,使他們更具有戰鬥力,面對同業競爭形成降維打擊。

02

零門檻實現機器學習,飛算雲創解決智能決策落地難題

在通過降低機器學習門檻進而解決智能決策落地難問題上,飛算雲創給出瞭解決方案——全自動數據建模平台AI.Modeler。具體而言,AI.Modeler是通過“三板斧”的方式讓機器學習門檻一降再降。

第一板斧是極致自動化,分為一鍵建模和一鍵應用兩部分。 使用傳統建模產品的工作流程包括五個環節:數據準備→特徵工程→算法調參→模型上線→應用開發,其中第二、三、四環節耗時最多,約佔總耗時的80%-90%,AI.Modeler聚焦於這些環節來實現效果最大化。

用户準備好建模所需數據之後將其導入AI.Modeler,大約一小時將自動生成用户可能用到的所有結果,實現一鍵建模。模型生成之後,用户可以進行在線預測和批量預測,實現一鍵應用。在線預測指把訓練產出的模型發佈為一個線上服務,並暴露其API端口,用户在這裏可以通過調用API接口的方式進行實時在線預測,企業其他系統只需調用在線API即可對新數據進行預測,並且在線API接口響應時間可以控制在20ms左右。批量預測指用户可以指定待預測的數據集,並指定要使⽤的模型,批量性地對待預估數據集進行預測。

第二板斧是極簡交互體驗。 AI.Modeler全流程零代碼,用户可以專注於業務問題,將過去繁重的編碼工作交給AI.Modeler自動完成,顯着提升工作效能,縮短項目週期。傳統模式下,數據科學人員需要手工寫代碼,然後看效果和修改BUG,較多的返工嚴重影響項目進度,並且因為較長的項目週期導致模型與需求容易發生偏差。在AI.Modeler平台上,用户按照平台流程化界面操作即可完成模型開發,不但提升項目交付速度,而且能保證模型與業務需求的緊密貼合。

第三板斧是場景深度結合。 除了分類、迴歸等一般機器學習應用之外,飛算雲創還將金融風控行業經驗融入解決方案之中,在AI.Modeler Pro中內置了風控標準評分卡建模專屬模組,便於用户快速建立風控模型。風控標準評分卡模型適用於金融風控、銀行信貸、企業徵信評估等應用場景,是金融領域的常用模型。

使用傳統建模產品的“人+工具”的開發範式,幾乎不存在自動化,建模效率低下,並且需要薪酬較高的資深數據科學人員,AI.Modeler打造數據建模新範式,讓人人都是數據科學家成為可能,相較於傳統開發範式,對建模人員的門檻顯着降低了要求,有利於企業降低人力成本,並且以自動化的方式大大提升了模型開發上線效率。

03

AI.Modeler優勢顯着,給用户帶來非凡體驗

相較於傳統編碼建模工具、拖拉拽方式機器學習平台以及自動化建模平台,全自動數據建模平台AI.Modeler在產品、技術和服務方面優勢顯着,均構築了自己的護城河。

產品方面:AI.Modeler貼合用户需求,成為用户真正需要的產品

雙版本AI.Modeler精準滿足兩類用户羣體需求。 飛算雲創根據用户羣體需求差異, 推出極簡版AI.Modeler Lite和專業版AI.Modeler Pro,分別面向業務人員和數據科學人員。AI.Modeler Lite面向業務人員,他們無需專業知識即可快速創建AI模型的自動化建模平台。AI.Modeler Lite通過自動化機器學習技術幫助企業聚焦業務、高效創建AI應用,效果媲美專業建模人員。AI.Modeler Pro是一款面向數據科學人員,集數據管理、特徵工程、算法優化、模型解釋性分析、模型分佈於一體的自動化全流程機器學習平台。通過AutoML技術和機器學習建模流程優化,幫助企業提升建模效率、改善模型質量、高效上線應用。

表1:AI.Modeler Lite和AI.Modeler Pro的用户羣體及核心能力

AI.Modeler融入了金融風控行業經驗。 飛算雲創核心團隊在金融領域具有十年經驗,掌握覆蓋業務全流程、運營全體系的金融科技技術,具備支持銀行等金融機構零售信貸業務轉型升級的能力。受益於此,飛算雲創在擁有AutoML等前沿技術的同時,還擁有數百億資產的業務實踐,這是其他建模產品廠商難以具備的。飛算雲創在AI.Modeler Pro中內置了風控標準評分卡建模專屬模組,便於用户快速建立風控模型。

AI.Modeler支持本地化和SaaS兩種部署方式。 面對大型企業,飛算雲創可以提供本地化部署和其他配套完整解決方案輸入;面對中小型企業,飛算雲創可以提供SaaS標準化服務,給用户帶來開箱即用的暢快體驗。

AI.Modeler 採用“全自動+零代碼”產品思維,使用門檻顯着降低。 AI.Modeler全程自動化、零代碼,AI.Modeler Lite對用户沒有任何基礎技能要求,AI.Modeler Pro對用户僅有1年數據科學從業經驗要求。傳統編碼建模工具的產品使用門檻最高,一般要求用户有5年以上數據科學從業經驗要求,拖拉拽方式機器學習平台以及自動化建模平台的產品使用門檻有所降低,但也需要3年以上數據科學從業經驗要求。

AI.Modeler 採用“全自動+零代碼”產品思維,為企業帶來更高效率。 數據科學人員使用傳統編碼建模工具時需要大量手寫代碼,效率最低。應用拖拉拽方式機器學習平台以及自動化建模平台減少手寫代碼量,效率有所提升,但仍需具備建模基礎。AI.Modeler效率最高,其具有的全流程自動化能力,無需編程、拖拉拽,可以讓用户專注於業務問題,將過去繁重的編碼工作交給AI.Modeler自動完成,顯着提升工作效能,縮短項目週期。

AI.Modeler助力企業技術成果沉澱並實現“中台”式複用。 傳統模型開發模式較難實現技術成果沉澱,主要有三點痛點:①模型文檔編寫費時費力,大部分模型開發者的代碼描述能力不足,經驗難以傳承;②技術難點的攻克依賴技術大牛,優秀的建模能力無法複製;③面對同一個問題,不同的數據科學人員有不同的處理方式,接手別人的代碼需要大量時間理解其建模思維,導致低效且交接不平順。AI.Modeler可以有效解決這三個痛點,首先,AI.Modeler將優秀模型開發過程集成到平台共享,提升團隊整體能力,努力不用重來,每步積累都作數,其次,模型開發成果轉化為標準化格式沉澱在模型倉庫,積累技術資產與標準化,並且,AI.Modeler可以實現模塊即取即用,無需耗費大量時間研究建模代碼,探索模型開發邏輯,消除人員交接的障礙。

技術方面:AI.Modeler緊跟技術潮流,充分利用開源力量

飛算雲創在AI.Modeler中使用開源框架,保持技術先進性。 AI.Modeler用到的主要開源框架包括Spring Boot和Spark。Spring Boot具有易於部署、高擴展性等特點,並且方便集成更多的主流組件,保證整個平台的穩定性和安全性。Spark最主要的特點是分佈式計算,適用於海量數據計算場景,不但運算速度快而且成本更低。

服務方面:AI.Modeler具備新手友好型培訓體系,可實現快速產出

飛算雲創為AI.Modeler建立了完善的培訓體系,使其具有較低學習成本。 飛算雲創為AI.Modeler建立了完善的培訓體系,包括產品白皮書、線上使用手冊、產品培訓視頻、線上產品體驗等。依託全自動能力和完善的培訓體系,AI.Modeler的學習成本比較低,對於AI.Modeler Lite用户而言,只需一天培訓即能熟練上手建模,對於AI.Modeler Pro用户而言,經過三天培訓即可創建模型進行業務應用。

04

AI.Modeler在泛金融行業備受認可,已在多家知名金融機構落地應用

AI.Modeler在泛金融、零售和醫療等行業進入落地應用階段,其中以泛金融行業最為深入,已實現多個場景的成功落地,包括智能風控、精準營銷、智能推薦、銷量預測、客户流失預警、逾期預測、反欺詐、反洗錢、故障預測等。

飛算雲創已經和多家知名金融機構建立合作關係,以AI.Modeler為抓手助力金融機構實現智能決策。

案例1 某大型銀行選擇AI.Modeler,營銷轉化率實現數倍提升

需求: 在該POC項目中,此銀行希望基於大數據平台對個人客户羣體進行產品購買預測,為業務部門提供更有力的決策支撐,進而提升結構性存款產品銷量。

解決方案: 在2022年6月,飛算雲創選擇行方專家模型作為本次POC項目的對標對象,通過真實客户觸達後統計營銷結果進行線下驗證,通過真實結果證明AI.Modeler價值。

效果: POC結果顯示使用模型名單與專家模型隨機抽取的測試數據進行模型評估,確定模型的召回能力和穩定性,在實際執行營銷的3萬多客户中,通過AI.Modeler建模的營銷轉化率為專家模型的7.9倍,且平均購買金為專家組3.6倍。並且,相較於以往的營銷建模方式,AI.Modeler展現出了更高的效率。AI.Modeler的實力和價值得到銀行的充分認可,雙方已進入正式合作階段。

案例2 AI.Modeler徹底改變京發科技建模範式,14人/天超預期完成項目

需求: 在深圳京發科技控股有限公司項目中,該金融機構信貸部門目前採用傳統的人工編程建模方式,涉及到貸前、貸中、貸後各場景,經過多年發展,業務量日益增長,業務也趨於複雜化,建模團隊的模型任務愈發加重。目前建模人員通過編碼來實現數據獲取、數據預處理、變量篩選、算法實現、模型開發評估、評分轉換等一系列流程,上線一個模型需要數月時間。深圳京發科技控股有限公司建模團隊面臨人手不夠與短時間內上線風險決策系統配套模型(集團年度重點項目)的項目壓力,希望藉助AI.Modeler的力量。

解決方案: 通過三個方面改變該公司建模團隊的開發範式。第一個方面是“可視化操作界面,提升開發效能”:團隊使用AI.Modeler進行可視化界面開發替代原來手工編碼的開發模式,可清晰按照業務邏輯,最大限度貼合需求開發業務功能,效率倍增。第二個方面是“標準化組件保證模型質量”:利用平台提供的滿足規範驗收標準的組件進行開發,杜絕了因人工編碼造成的代碼質量問題,節省團隊大量審代碼、改BUG等時間成本。第三個方面是“從根源解決平台穩定性及安全性缺陷”:AI.Modeler集成滿足國家信息安全等級保護三級認證,要求的安全規範和管理模式,保障電商平台的系統強壯度和安全性能。

效果: AI.Modeler上線後,徹底改變了該公司建模團隊的開發範式,使建模團隊僅用14人/天的工作量便高效完成了模型開發,遠超預期。

用數據和智能技術驅動業務發展,是數智化時代企業轉型的必由之路。在新一輪科技革命和產業變革浪潮下,企業家們需要思考如何順勢而為,擁抱變化。對於新技術、新產品,企業應該積極嘗試,但不應該盲目嘗試,而是結合多方面信息綜合考慮後再進行選擇。同理,企業在為數據科學團隊選擇數據建模工具時,需要結合易用性、成本、功能等因素慎重選擇,選擇一款與自身需求緊密貼合的,能為企業帶來實際價值的產品。