Xintell——全生命週期的模型建設+智能數據中台
在業務反欺詐、運營及數據分析上,經常會涉及到模型。模型就是基於目標羣體的大規模採樣數據,挖掘出某個實際問題或客觀事物的現象本質及運行規律,利用抽象的概念分析存在問題或風險,計算推演出減輕、防範問題或風險的對策過程,並形成一套體系化的策略或規則集。
模型建設是一個複雜的過程,一般需要幾個或十幾個專業開發人員,耗費幾個月乃至大半年才能夠完成一個模型建設。如果有新的數據、樣本更新,就需要重新計算分析才能完成。此外很多公司和機構並不具備獨立建設模型的能力,因此會委託第三方機構幫助其建立模型或者直接使用一些通用標準模型。然而不同企業機構的業務場景不同,流程標準和需求目標有差異,直接使用通用標準模型往往不盡如人意。
越來越多的企業希望從積累的海量數據中挖掘出業務價值,因此開始組建自己的算法團隊。一方面,避免模型建設外包時,帶來的隱私數據泄露的風險;另一方面,能夠構建專屬業務的模型,並且可以根據業務、需求以及數據的更新及時進行更迭。
為了助力企業解決建模難、升級更新慢、模型管理複雜的問題,包含頂象等多家公司推出了專業模型解決方案。
以頂象Xintell智能模型平台為例。基於關聯網絡和深度學習技術,結合Hadoop生態和自研組件,將複雜的數據處理、挖掘、機器學習過程標準化,提供從數據處理、特徵衍生、模型構建到最終模型上線的一站式建模服務,結合拖拉拽式操作大幅降低建模門檻,提升建模工程師、數據科學家的工作效率,讓運營人員和業務人員也能直接上手操作實踐,幫助企業通過對大數據的模型訓練在反欺詐、風控、營銷、客户分羣等場景提供模型支持,並能夠根據時間變化進行動態升級與優化,極大降低建模門檻。
建模靈活
支持HiveSQL腳本、Python腳本(Jupyter Notebook)和可視化建模三種開發方式,均可以發佈為調度任務並可任意進行組合,實現強大的自動化流程。
可視化
可視化的建模方式,讓不懂技術的業務人員,以拖拉拽的方式在畫布上連接成流程圖,不需要寫代碼或僅僅寫少量的代碼,能夠以設定組件參數的方式訓練出一個完整的模型。
部署快
Xintell基於企業本身的大數據平台,支持導入PMML格式和Python源碼的任何第三方模型,能夠能靈活地與企業已有的系統對接;一鍵式部署方便快捷,比同類建模產品的部署速度減少80%。
可解釋性強
Xintell內置自研的一整套評分卡建模組件,適用於各種對可解釋性要求高的建模場景。
全生命週期的模型開發與管理平台
在軟件工程領域,軟件開發生命週期(Software Development Life Cycle,SDLC)包含了軟件從開始到發佈的不同階段:需求收集、設計、軟件開發、測試和質量保證、部署、維護。機器學習建模,作為軟件開發的一個分支,同樣遵循着這樣的流程,而模型的開發僅僅是其中的一個環節。
建模人員有喜歡編程寫代碼的,也有喜歡可視化建模的。就提供模型開發功能而言,不同的建模平台之間大同小異,甚至作為一個以私有化部署方式為主的輕量級建模平台,Xintell在某些方面的功能和其他開放的數據科學平台相比是不足的,比如不提供常見的公共數據集和預訓練模型、沒有可以提供學習資源和交流的開發者社區。但Xintell的優勢在於其覆蓋了模型全生命週期的管理功能,在對模型工程化的支持方面,目前是領先於其他競品的。
Python 建模
“低代碼”建模
所謂工程化,至少包含以下環節:部署開發好的模型,實時或定期採集數據,調用模型,然後將模型的輸出結果進行展示或對接下游業務系統,並監控模型的性能、定期評估模型的效果,必要時對模型進行迭代更新。
使用Xintell平台開發模型,可以保證整個工程化的過程是便捷、高效的。例如:支持一鍵將模型部署為在線模型(可指定部署的實例個數),以API的形式對外提供模型調用服務;自帶對在線模型服務的監控功能;可將整套操作流程配置為定期自動運行的調度任務。因此,Xintell不僅僅是一個模型開發平台,更是一個模型管理平台,其功能覆蓋了建模的全生命週期。
狹義的模型管理
狹義而言,模型管理分為兩個方面:管理同一個模型的多個版本;管理多個不同的模型。
前者,部署在Xintell上的在線模型,可以一鍵切換版本。
後者,Xintell支持導入任意Python源代碼或PMML格式的外部模型,然後進行批量預測,或部署為在線模型供實時調用。具體的功能介紹可參閲相關文檔,在此不詳細展開介紹。
“融合式”模型開發
廣義的模型管理
廣義而言,除了管理不同模型和模型的不同版本外,模型管理還包括:
數據管理
Xintell採用Hive表管理所有的數據,支持與常見的數據庫進行對接,包括但不限於Hive、Oracle、MySQL、ES、MongoDB、Kafka、Cassandra等。可發佈成數據同步任務,集成到調度任務中實現定時自動運行。Xintell也支持往Hive表中直接導入csv、txt、log等常見類型的數據文件。
各個表從不同的數據源彙總到Hive表中後,或進一步經過關聯、清洗、加工,形成數據集市,供後續的建模等任務使用。
特徵管理
不同的建模場景可能用到相同的業務數據,如果不進行集中管理,可能造成特徵的重複加工。為了增加特徵的可複用性,特別是存在數據加工人員和建模人員兩個角色時,有必要對特徵進行管理,輔以相關的特徵説明。在特徵管理方面的功能Xintell正在不斷完善。目前已有二代徵信特徵庫,未來計劃開發更多場景的特徵庫,並提供通用的特徵管理功能。
代碼管理
不同項目空間的代碼相互隔離,從而可以支持多個項目同時開發。支持將HiveSQL腳本和Python腳本發佈版本,支持版本回溯,從而實現代碼的版本管理。在調度任務中可以調度指定版本的腳本文件。
文檔和資源管理
模型的代碼目錄下可以創建Markdown文檔,記錄模型的需求設計、代碼説明等相關信息。除此之外,Xintell平台提供了文件資源管理功能,可以視作是一個簡易的FTP,建模團隊成員可以上傳模型相關的文件資料(如測試報吿、bad case、第三方庫、數據字典等),與其他成員共享。
模型運維
Xintell提供了在線模型服務的儀表盤,可以便捷地查看歷史上模型的調用量和平均耗時,及時發現模型的異常。通過將模型輸出的結果和真實的標籤按一定規範寫入指定的表中,還可以監控模型的KS、PSI等指標,用於評估模型性能是否發生衰退。
權限管理
這是比較容易被忽視的一點,但對於團隊協作是必不可少的。通常同一個項目空間下,有項目管理員和模型開發人員兩種角色,可以配置不同角色的操作權限。特別地,團隊成員之間可以互相查看代碼,進行code review或相互學習;而通過加鎖的功能,可以防止自己的代碼或已發佈的調度任務被他人誤修改。
團隊協作平台
軟件工程中有一個名詞叫“協同開發”,相關領域的專家們設計了各種協同開發工具,來幫助軟件開發團隊更好、更快地進行協作和開發,最為典型的代表之一就是Git,一個代碼協作和管理工具。正因為其健全的模型管理功能,Xintell也可視為一個建模團隊的協同開發平台。
一個典型的使用場景就是高校實驗室。一位導師可能需要指導多個學生撰寫數人工智能領域的論文,或是帶領多個學生參與一個模型項目的開發。如果能有一套像Xintell這樣的平台,給學生提供基本的模型開發和代碼管理工具,給團隊提供代碼、資源共享的渠道,能大大提高協同開發的效率,減輕導師指導和管理的難度。
Xintell也是一個智能數據中台
從數據中挖掘價值,只有通過訓練機器學習模型這一種方式嗎?顯然不是。模型只是數據應用的一種方式而已,其他常見的需求還有製作統計報表、構建關聯網絡並展示、輸出數據處理與分析結果等。那麼,Xintell平台的使用也不僅僅侷限於需要建模的場景。
數據報表
業務人員往往需要將過往一段時間的業務數據從各個維度進行統計分析,然後做成報表,以便發現業務或客羣的變化趨勢,從而為更好地開展未來的業務提供決策依據,這就是BI。Xintell也提供了簡易的報表製作的功能,相比常見的BI工具,Xintell的優勢在於能夠整合來着不同數據源的數據;可以實現複雜的數據分析與處理;以及可以通過調度任務實現定期自動生成報表。
當然,如果覺得Xintell中生成的報表不夠美觀、靈活,還可以通過數據同步的方式,將處理好的數據同步到其他專業的BI工具進行可視化。
知識圖譜
事物之間普遍存在着紛繁複雜的聯繫的,模型利用的往往是個體的特徵,無法刻畫出個體之間的關聯。而通過構建關聯網絡或圖譜,進而劃分團伙計算團伙指標或應用各類圖算法,能夠彌補這一短板。
Xintell平台集成了圖數據庫ArangoDB,並封裝了常見的圖算法。關聯網絡技術常用於檢測團伙欺詐風險,如代理人欺詐、信用卡套現檢測、信貸申請反欺詐、營銷反欺詐等場景。利用集成的圖數據庫,Xintell可以實現具有關聯關係的數據(如團伙)的展示與查詢。事實上,很多時候也有必要在圖譜中展示模型預測的結果,如可以在代理人團隊中展示對代理人欺詐風險的預測,以便進一步識別一些團隊中的異常。
類似地,如果已經有或需要用其他圖譜工具展示關聯網絡的話,可以在Xintell上完成節點表和關係表的加工,然後再同步到其他數據庫中。
數據服務
Xintell支持配置數據服務,通過"導入字段",可以快速將Hive表的字段結構複製到數據服務中。業務方通過發起Http請求,提供查詢參數訪問數據服務。
常見的應用場景包括對外部系統提供用户畫像、模型預測結果等的查詢。
數據樞紐
調度任務這一功能是Xintell的一大靈魂。在私有化部署的Xintell平台上,當建模團隊完成模型交付之後,客户未必會使用Xintell開發新的模型,但通常會創建新的調度任務,實現與模型並不直接相關的其他任務,比如數據集市的構建、指標的計算、報表的製作等。毫不誇張地説,調度任務可能比模型開發和管理更常用。
調度任務之所以強大,是因為其靈活。在Xintell平台上,可以將數據同步、HiveSQL腳本、Python腳本和可視化建模這四類發佈成任務,然後通過連線的方式,在調用任務的畫布中構建為任務流,並可以進一步指定任務流的運行時間和週期,實現任務流的定期定時自動運行。
當然,想要定期定時自動執行一段腳本,並非只能依賴於Xintell平台,但利用Xintell平台,可以對調度任務進行便捷地管理,如開啟/關閉任務、任務錯峯排期、配置任務預警等。事實上,在私有化部署的Xintell平台上,同時配置了幾十個調度任務是非常常見的。
在某種意義上,可以將Xintell視為一個數據樞紐,而不是僅僅是模型平台。通過調度任務,可以實現從數據同步、數據處理、數據應用(數據統計分析,調用模型,構建關聯網絡,運用圖算法)、數據可視化(圖譜展示、報表生成)、數據價值輸出(圖譜查詢,在線模型服務,數據服務,同步到其他業務系統)等一整套流程,其核心便是對數據的調度,故稱之為樞紐,數據樞紐。而Xintell的價值也不僅僅在提供模型開發和管理的工具,更在於賦能客户,幫助客户更便捷地從自身的業務數據中挖掘出價值,並加以充分利用,反哺於其業務。
哪些企業適合選用Xintell?
毫無疑問,需要進行建模的團隊肯定是Xintell的企業和組織,因為他們需要一個模型的協同開發、管理和運維平台。這個團隊可以隸屬於高校的實驗室,可以隸屬於某個企業甚至某個業務部門。但在筆者看來,任何一個擁有數據、希望從數據中挖掘價值從而為業務助力的企業,都是Xintell的潛在客户。特別是正在經歷、或有計劃進行數字化轉型的傳統行業的企業。他們在組建自己算法團隊的同時,也亟需一套Xintell平台幫助他們管理包括模型在內的數據應用,特別是在對工程化的支持方面,Xintell是不二的選擇。無論是組建自己的建模團隊,還是希望將已有的模型進行集中管理,亦或進行其他數據應用的開發(如構建關聯網絡,提供圖譜展示與查詢),Xintell都有用武之地。
當前,採購Xintell平台的更多的是銀行等金融行業的機構,顯然,Xintell的市場潛力很大,機會遠遠沒有被髮掘。因為Xintell不僅僅是一個模型開發平台,更是一個模型管理平台、團隊協作平台;不僅僅是一個數據服務平台,更是一個智能數據中台。
——————
業務安全產品:免費試用