Xintell——全生命週期的模型建設+智慧資料中臺
在業務反欺詐、運營及資料分析上,經常會涉及到模型。模型就是基於目標群體的大規模取樣資料,挖掘出某個實際問題或客觀事物的現象本質及執行規律,利用抽象的概念分析存在問題或風險,計算推演出減輕、防範問題或風險的對策過程,並形成一套體系化的策略或規則集。
模型建設是一個複雜的過程,一般需要幾個或十幾個專業開發人員,耗費幾個月乃至大半年才能夠完成一個模型建設。如果有新的資料、樣本更新,就需要重新計算分析才能完成。此外很多公司和機構並不具備獨立建設模型的能力,因此會委託第三方機構幫助其建立模型或者直接使用一些通用標準模型。然而不同企業機構的業務場景不同,流程標準和需求目標有差異,直接使用通用標準模型往往不盡如人意。
越來越多的企業希望從積累的海量資料中挖掘出業務價值,因此開始組建自己的演算法團隊。一方面,避免模型建設外包時,帶來的隱私資料洩露的風險;另一方面,能夠構建專屬業務的模型,並且可以根據業務、需求以及資料的更新及時進行更迭。
為了助力企業解決建模難、升級更新慢、模型管理複雜的問題,包含頂象等多家公司推出了專業模型解決方案。
以頂象Xintell智慧模型平臺為例。基於關聯網路和深度學習技術,結合Hadoop生態和自研元件,將複雜的資料處理、挖掘、機器學習過程標準化,提供從資料處理、特徵衍生、模型構建到最終模型上線的一站式建模服務,結合拖拉拽式操作大幅降低建模門檻,提升建模工程師、資料科學家的工作效率,讓運營人員和業務人員也能直接上手操作實踐,幫助企業通過對大資料的模型訓練在反欺詐、風控、營銷、客戶分群等場景提供模型支援,並能夠根據時間變化進行動態升級與優化,極大降低建模門檻。
建模靈活
支援HiveSQL指令碼、Python指令碼(Jupyter Notebook)和視覺化建模三種開發方式,均可以釋出為排程任務並可任意進行組合,實現強大的自動化流程。
視覺化
視覺化的建模方式,讓不懂技術的業務人員,以拖拉拽的方式在畫布上連線成流程圖,不需要寫程式碼或僅僅寫少量的程式碼,能夠以設定元件引數的方式訓練出一個完整的模型。
部署快
Xintell基於企業本身的大資料平臺,支援匯入PMML格式和Python原始碼的任何第三方模型,能夠能靈活地與企業已有的系統對接;一鍵式部署方便快捷,比同類建模產品的部署速度減少80%。
可解釋性強
Xintell內建自研的一整套評分卡建模元件,適用於各種對可解釋性要求高的建模場景。
全生命週期的模型開發與管理平臺
在軟體工程領域,軟體開發生命週期(Software Development Life Cycle,SDLC)包含了軟體從開始到釋出的不同階段:需求收集、設計、軟體開發、測試和質量保證、部署、維護。機器學習建模,作為軟體開發的一個分支,同樣遵循著這樣的流程,而模型的開發僅僅是其中的一個環節。
建模人員有喜歡程式設計寫程式碼的,也有喜歡視覺化建模的。就提供模型開發功能而言,不同的建模平臺之間大同小異,甚至作為一個以私有化部署方式為主的輕量級建模平臺,Xintell在某些方面的功能和其他開放的資料科學平臺相比是不足的,比如不提供常見的公共資料集和預訓練模型、沒有可以提供學習資源和交流的開發者社群。但Xintell的優勢在於其覆蓋了模型全生命週期的管理功能,在對模型工程化的支援方面,目前是領先於其他競品的。
Python 建模
“低程式碼”建模
所謂工程化,至少包含以下環節:部署開發好的模型,實時或定期採集資料,呼叫模型,然後將模型的輸出結果進行展示或對接下游業務系統,並監控模型的效能、定期評估模型的效果,必要時對模型進行迭代更新。
使用Xintell平臺開發模型,可以保證整個工程化的過程是便捷、高效的。例如:支援一鍵將模型部署為線上模型(可指定部署的例項個數),以API的形式對外提供模型呼叫服務;自帶對線上模型服務的監控功能;可將整套操作流程配置為定期自動執行的排程任務。因此,Xintell不僅僅是一個模型開發平臺,更是一個模型管理平臺,其功能覆蓋了建模的全生命週期。
狹義的模型管理
狹義而言,模型管理分為兩個方面:管理同一個模型的多個版本;管理多個不同的模型。
前者,部署在Xintell上的線上模型,可以一鍵切換版本。
後者,Xintell支援匯入任意Python原始碼或PMML格式的外部模型,然後進行批量預測,或部署為線上模型供實時呼叫。具體的功能介紹可參閱相關文件,在此不詳細展開介紹。
“融合式”模型開發
廣義的模型管理
廣義而言,除了管理不同模型和模型的不同版本外,模型管理還包括:
資料管理
Xintell採用Hive表管理所有的資料,支援與常見的資料庫進行對接,包括但不限於Hive、Oracle、MySQL、ES、MongoDB、Kafka、Cassandra等。可釋出成資料同步任務,整合到排程任務中實現定時自動執行。Xintell也支援往Hive表中直接匯入csv、txt、log等常見型別的資料檔案。
各個表從不同的資料來源彙總到Hive表中後,或進一步經過關聯、清洗、加工,形成資料集市,供後續的建模等任務使用。
特徵管理
不同的建模場景可能用到相同的業務資料,如果不進行集中管理,可能造成特徵的重複加工。為了增加特徵的可複用性,特別是存在資料加工人員和建模人員兩個角色時,有必要對特徵進行管理,輔以相關的特徵說明。在特徵管理方面的功能Xintell正在不斷完善。目前已有二代徵信特徵庫,未來計劃開發更多場景的特徵庫,並提供通用的特徵管理功能。
程式碼管理
不同專案空間的程式碼相互隔離,從而可以支援多個專案同時開發。支援將HiveSQL指令碼和Python指令碼釋出版本,支援版本回溯,從而實現程式碼的版本管理。在排程任務中可以排程指定版本的指令碼檔案。
文件和資源管理
模型的程式碼目錄下可以建立Markdown文件,記錄模型的需求設計、程式碼說明等相關資訊。除此之外,Xintell平臺提供了檔案資源管理功能,可以視作是一個簡易的FTP,建模團隊成員可以上傳模型相關的檔案資料(如測試報告、bad case、第三方庫、資料字典等),與其他成員共享。
模型運維
Xintell提供了線上模型服務的儀表盤,可以便捷地檢視歷史上模型的呼叫量和平均耗時,及時發現模型的異常。通過將模型輸出的結果和真實的標籤按一定規範寫入指定的表中,還可以監控模型的KS、PSI等指標,用於評估模型效能是否發生衰退。
許可權管理
這是比較容易被忽視的一點,但對於團隊協作是必不可少的。通常同一個專案空間下,有專案管理員和模型開發人員兩種角色,可以配置不同角色的操作許可權。特別地,團隊成員之間可以互相檢視程式碼,進行code review或相互學習;而通過加鎖的功能,可以防止自己的程式碼或已釋出的排程任務被他人誤修改。
團隊協作平臺
軟體工程中有一個名詞叫“協同開發”,相關領域的專家們設計了各種協同開發工具,來幫助軟體開發團隊更好、更快地進行協作和開發,最為典型的代表之一就是Git,一個程式碼協作和管理工具。正因為其健全的模型管理功能,Xintell也可視為一個建模團隊的協同開發平臺。
一個典型的使用場景就是高校實驗室。一位導師可能需要指導多個學生撰寫數人工智慧領域的論文,或是帶領多個學生參與一個模型專案的開發。如果能有一套像Xintell這樣的平臺,給學生提供基本的模型開發和程式碼管理工具,給團隊提供程式碼、資源共享的渠道,能大大提高協同開發的效率,減輕導師指導和管理的難度。
Xintell也是一個智慧資料中臺
從資料中挖掘價值,只有通過訓練機器學習模型這一種方式嗎?顯然不是。模型只是資料應用的一種方式而已,其他常見的需求還有製作統計報表、構建關聯網路並展示、輸出資料處理與分析結果等。那麼,Xintell平臺的使用也不僅僅侷限於需要建模的場景。
資料報表
業務人員往往需要將過往一段時間的業務資料從各個維度進行統計分析,然後做成報表,以便發現業務或客群的變化趨勢,從而為更好地開展未來的業務提供決策依據,這就是BI。Xintell也提供了簡易的報表製作的功能,相比常見的BI工具,Xintell的優勢在於能夠整合來著不同資料來源的資料;可以實現複雜的資料分析與處理;以及可以通過排程任務實現定期自動生成報表。
當然,如果覺得Xintell中生成的報表不夠美觀、靈活,還可以通過資料同步的方式,將處理好的資料同步到其他專業的BI工具進行視覺化。
知識圖譜
事物之間普遍存在著紛繁複雜的聯絡的,模型利用的往往是個體的特徵,無法刻畫出個體之間的關聯。而通過構建關聯網路或圖譜,進而劃分團伙計算團伙指標或應用各類圖演算法,能夠彌補這一短板。
Xintell平臺集成了圖資料庫ArangoDB,並封裝了常見的圖演算法。關聯網路技術常用於檢測團伙欺詐風險,如代理人欺詐、信用卡套現檢測、信貸申請反欺詐、營銷反欺詐等場景。利用整合的圖資料庫,Xintell可以實現具有關聯關係的資料(如團伙)的展示與查詢。事實上,很多時候也有必要在圖譜中展示模型預測的結果,如可以在代理人團隊中展示對代理人欺詐風險的預測,以便進一步識別一些團隊中的異常。
類似地,如果已經有或需要用其他圖譜工具展示關聯網路的話,可以在Xintell上完成節點表和關係表的加工,然後再同步到其他資料庫中。
資料服務
Xintell支援配置資料服務,通過"匯入欄位",可以快速將Hive表的欄位結構複製到資料服務中。業務方通過發起Http請求,提供查詢引數訪問資料服務。
常見的應用場景包括對外部系統提供使用者畫像、模型預測結果等的查詢。
資料樞紐
排程任務這一功能是Xintell的一大靈魂。在私有化部署的Xintell平臺上,當建模團隊完成模型交付之後,客戶未必會使用Xintell開發新的模型,但通常會建立新的排程任務,實現與模型並不直接相關的其他任務,比如資料集市的構建、指標的計算、報表的製作等。毫不誇張地說,排程任務可能比模型開發和管理更常用。
排程任務之所以強大,是因為其靈活。在Xintell平臺上,可以將資料同步、HiveSQL指令碼、Python指令碼和視覺化建模這四類釋出成任務,然後通過連線的方式,在呼叫任務的畫布中構建為任務流,並可以進一步指定任務流的執行時間和週期,實現任務流的定期定時自動執行。
當然,想要定期定時自動執行一段指令碼,並非只能依賴於Xintell平臺,但利用Xintell平臺,可以對排程任務進行便捷地管理,如開啟/關閉任務、任務錯峰排期、配置任務預警等。事實上,在私有化部署的Xintell平臺上,同時配置了幾十個排程任務是非常常見的。
在某種意義上,可以將Xintell視為一個數據樞紐,而不是僅僅是模型平臺。通過排程任務,可以實現從資料同步、資料處理、資料應用(資料統計分析,呼叫模型,構建關聯網路,運用圖演算法)、資料視覺化(圖譜展示、報表生成)、資料價值輸出(圖譜查詢,線上模型服務,資料服務,同步到其他業務系統)等一整套流程,其核心便是對資料的排程,故稱之為樞紐,資料樞紐。而Xintell的價值也不僅僅在提供模型開發和管理的工具,更在於賦能客戶,幫助客戶更便捷地從自身的業務資料中挖掘出價值,並加以充分利用,反哺於其業務。
哪些企業適合選用Xintell?
毫無疑問,需要進行建模的團隊肯定是Xintell的企業和組織,因為他們需要一個模型的協同開發、管理和運維平臺。這個團隊可以隸屬於高校的實驗室,可以隸屬於某個企業甚至某個業務部門。但在筆者看來,任何一個擁有資料、希望從資料中挖掘價值從而為業務助力的企業,都是Xintell的潛在客戶。特別是正在經歷、或有計劃進行數字化轉型的傳統行業的企業。他們在組建自己演算法團隊的同時,也亟需一套Xintell平臺幫助他們管理包括模型在內的資料應用,特別是在對工程化的支援方面,Xintell是不二的選擇。無論是組建自己的建模團隊,還是希望將已有的模型進行集中管理,亦或進行其他資料應用的開發(如構建關聯網路,提供圖譜展示與查詢),Xintell都有用武之地。
當前,採購Xintell平臺的更多的是銀行等金融行業的機構,顯然,Xintell的市場潛力很大,機會遠遠沒有被髮掘。因為Xintell不僅僅是一個模型開發平臺,更是一個模型管理平臺、團隊協作平臺;不僅僅是一個數據服務平臺,更是一個智慧資料中臺。
——————
業務安全產品:免費試用