全自动数据建模平台打造建模新范式,人人都能成为数据科学家 | 爱分析调研

语言: CN / TW / HK

调研:李进宝

撰写:李进宝

面对百万计的信贷客户,信贷部门需要快速准确地判定出谁是高风险客户;面对长长的老客户名单,销售部门需要精准定位复购可能性高的群体进行针对性营销;面对形形色色的消费者们,门店管理部门需要预测各类产品的近期销量以实现库存成本最小化。依靠专家经验来应对此类场景愈发难以适应当下时代,企业需要挖掘数据价值,用数据驱动业务,实现智能决策。

由数据科学家、数据工程师和数据分析师等组成的数据科学团队可以满足企业相关需求,但也带来了团队建设难度大、建设成本高等一系列新问题。在产品日新月异的数智化时代,是否有合适的产品来解决这一系列新问题呢? 

01

智能决策愈发受到企业重视,但落地难问题亟待解决

经济新常态下,精细化运营成为企业增长的关键动力,对决策质量提出了更高要求;复杂的商业环境使影响决策的因素不断增多,做决策的难度持续上升;多变的用户偏好,对企业决策敏捷性提出了更高要求。当下时代,依靠经验和简单数据分析的传统决策愈发难以满足企业需求,智能决策逐渐受到企业重视。

智能决策综合利用机器学习、深度学习、运筹优化等多种智能技术实现增强和自动决策,可以基于既定目标做预测,或是综合约束条件、策略、偏好、不确定性等因素,对相关数据进行建模分析,从而自动生成最优决策。智能决策相对于传统决策,在计算速度,自动化程度,预测精准度等方面均有大幅提高。

智能决策并非单纯的概念,而是已经在多个行业场景实现落地,包括金融行业的精准营销、反欺诈、反洗钱场景,零售行业的销量预测、库存优化场景,医疗行业的疾病预测场景,制造行业的设备寿命预测、排产排程场景,航空行业的机场人员排班场景等。

智能决策的实现有多种技术路径,其中,基于机器学习的智能决策已经被广泛应用。机器学习技术路径的实现方式是基于大量数据进行训练并构建模型,进而实现决策能力,由于其擅长特征工程的优势,多应用于业务逻辑比较复杂的场景,例如金融反欺诈、销量预测等。

但由于机器学习门槛高,其落地难问题一直没有得到有效解决。一个合格的机器学习从业人员,在算法方面需要学习机器学习、深度学习、迁移学习和增强学习,在模型方面需要学习建模、调参、自学习和上线,在数据方面需要学习特征工程和大数据,在环境方面需要学习分布式和私有部署,在效果方面需要学习高可用、多租户和高扩展,其门槛之高可见一斑。

图1:机器学习门槛高导致的两个现象 

机器学习门槛高导致相关人才非常稀缺。2022年,浙江大学中国科教战略研究院携手百度联合发布《中国人工智能人才培养报告》,报告显示:我国人工智能人才缺口高达500万。即使存在一定的相关人才供应,也会被商汤科技、云从科技、依图科技、旷世科技等AI企业和百度、阿里、腾讯、字节跳动等互联网企业优先抢占,其他企业存在招聘难的问题。

即使遇到了能力符合要求的人才,很多企业也无法满足其薪酬要求。爱分析对数据科学从业人员薪资不完全统计结果显示,2022年数据分析师和数据工程师年薪平均值在30万-35万区间,数据科学家年薪平均值在75万-80万区间。如果企业希望组建一个5人规模(1名数据科学家+4名数据分析师或数据工程师)的数据科学团队,仅薪酬支出便会突破200万元,很多企业难以满足。

问题不止如此,如果企业找到了能力符合要求的机器学习人才,且愿意支付相应的高薪酬,机器学习落地亦存在“低效”的问题。构建机器学习模型依赖专业程序设计技能和建模工具,工程复杂且费时费力,即使是数据科学家,建模也要耗费相当多的时间和精力。使用传统建模产品的工作流程包括五个环节:数据准备→特征工程→算法调参→模型上线→应用开发,每一步都是“人+工具”的开发范式,几乎不存在自动化,建模效率低下。

降低机器学习门槛对企业有显著价值。首先,企业可以快速、低成本地组建数据科学团队,人力成本节流效果明显。其次,企业实现传统决策向智能决策转型,提升在当下时代的生存能力。最后,有利于加强企业数字化人才队伍建设,企业数字化人才队伍既包括数据分析师、数据工程师和数据科学家等数据科学从业人员,也包括广大业务人员,通过数据赋能业务人员,使他们更具有战斗力,面对同业竞争形成降维打击。 

02

零门槛实现机器学习,飞算云创解决智能决策落地难题

在通过降低机器学习门槛进而解决智能决策落地难问题上,飞算云创给出了解决方案——全自动数据建模平台AI.Modeler。具体而言,AI.Modeler是通过“三板斧”的方式让机器学习门槛一降再降。

第一板斧是极致自动化,分为一键建模和一键应用两部分。 使用传统建模产品的工作流程包括五个环节:数据准备→特征工程→算法调参→模型上线→应用开发,其中第二、三、四环节耗时最多,约占总耗时的80%-90%,AI.Modeler聚焦于这些环节来实现效果最大化。 

用户准备好建模所需数据之后将其导入AI.Modeler,大约一小时将自动生成用户可能用到的所有结果,实现一键建模。模型生成之后,用户可以进行在线预测和批量预测,实现一键应用。在线预测指把训练产出的模型发布为一个线上服务,并暴露其API端口,用户在这里可以通过调用API接口的方式进行实时在线预测,企业其他系统只需调用在线API即可对新数据进行预测,并且在线API接口响应时间可以控制在20ms左右。批量预测指用户可以指定待预测的数据集,并指定要使⽤的模型,批量性地对待预估数据集进行预测。

第二板斧是极简交互体验。 AI.Modeler全流程零代码,用户可以专注于业务问题,将过去繁重的编码工作交给AI.Modeler自动完成,显著提升工作效能,缩短项目周期。传统模式下,数据科学人员需要手工写代码,然后看效果和修改BUG,较多的返工严重影响项目进度,并且因为较长的项目周期导致模型与需求容易发生偏差。在AI.Modeler平台上,用户按照平台流程化界面操作即可完成模型开发,不但提升项目交付速度,而且能保证模型与业务需求的紧密贴合。

第三板斧是场景深度结合。 除了分类、回归等一般机器学习应用之外,飞算云创还将金融风控行业经验融入解决方案之中,在AI.Modeler Pro中内置了风控标准评分卡建模专属模组,便于用户快速建立风控模型。风控标准评分卡模型适用于金融风控、银行信贷、企业征信评估等应用场景,是金融领域的常用模型。

使用传统建模产品的“人+工具”的开发范式,几乎不存在自动化,建模效率低下,并且需要薪酬较高的资深数据科学人员,AI.Modeler打造数据建模新范式,让人人都是数据科学家成为可能,相较于传统开发范式,对建模人员的门槛显著降低了要求,有利于企业降低人力成本,并且以自动化的方式大大提升了模型开发上线效率。

03

AI.Modeler优势显著,给用户带来非凡体验

相较于传统编码建模工具、拖拉拽方式机器学习平台以及自动化建模平台,全自动数据建模平台AI.Modeler在产品、技术和服务方面优势显著,均构筑了自己的护城河。

产品方面:AI.Modeler贴合用户需求,成为用户真正需要的产品

双版本AI.Modeler精准满足两类用户群体需求。 飞算云创根据用户群体需求差异, 推出极简版AI.Modeler Lite和专业版AI.Modeler Pro,分别面向业务人员和数据科学人员。AI.Modeler Lite面向业务人员,他们无需专业知识即可快速创建AI模型的自动化建模平台。AI.Modeler Lite通过自动化机器学习技术帮助企业聚焦业务、高效创建AI应用,效果媲美专业建模人员。AI.Modeler Pro是一款面向数据科学人员,集数据管理、特征工程、算法优化、模型解释性分析、模型分布于一体的自动化全流程机器学习平台。通过AutoML技术和机器学习建模流程优化,帮助企业提升建模效率、改善模型质量、高效上线应用。

表1:AI.Modeler Lite和AI.Modeler Pro的用户群体及核心能力 

AI.Modeler融入了金融风控行业经验。 飞算云创核心团队在金融领域具有十年经验,掌握覆盖业务全流程、运营全体系的金融科技技术,具备支持银行等金融机构零售信贷业务转型升级的能力。受益于此,飞算云创在拥有AutoML等前沿技术的同时,还拥有数百亿资产的业务实践,这是其他建模产品厂商难以具备的。飞算云创在AI.Modeler Pro中内置了风控标准评分卡建模专属模组,便于用户快速建立风控模型。

AI.Modeler支持本地化和SaaS两种部署方式。 面对大型企业,飞算云创可以提供本地化部署和其他配套完整解决方案输入;面对中小型企业,飞算云创可以提供SaaS标准化服务,给用户带来开箱即用的畅快体验。

AI.Modeler 采用“全自动+零代码”产品思维,使用门槛显著降低。 AI.Modeler全程自动化、零代码,AI.Modeler Lite对用户没有任何基础技能要求,AI.Modeler Pro对用户仅有1年数据科学从业经验要求。传统编码建模工具的产品使用门槛最高,一般要求用户有5年以上数据科学从业经验要求,拖拉拽方式机器学习平台以及自动化建模平台的产品使用门槛有所降低,但也需要3年以上数据科学从业经验要求。

AI.Modeler 采用“全自动+零代码”产品思维,为企业带来更高效率。 数据科学人员使用传统编码建模工具时需要大量手写代码,效率最低。应用拖拉拽方式机器学习平台以及自动化建模平台减少手写代码量,效率有所提升,但仍需具备建模基础。AI.Modeler效率最高,其具有的全流程自动化能力,无需编程、拖拉拽,可以让用户专注于业务问题,将过去繁重的编码工作交给AI.Modeler自动完成,显著提升工作效能,缩短项目周期。

AI.Modeler助力企业技术成果沉淀并实现“中台”式复用。 传统模型开发模式较难实现技术成果沉淀,主要有三点痛点:①模型文档编写费时费力,大部分模型开发者的代码描述能力不足,经验难以传承;②技术难点的攻克依赖技术大牛,优秀的建模能力无法复制;③面对同一个问题,不同的数据科学人员有不同的处理方式,接手别人的代码需要大量时间理解其建模思维,导致低效且交接不平顺。AI.Modeler可以有效解决这三个痛点,首先,AI.Modeler将优秀模型开发过程集成到平台共享,提升团队整体能力,努力不用重来,每步积累都作数,其次,模型开发成果转化为标准化格式沉淀在模型仓库,积累技术资产与标准化,并且,AI.Modeler可以实现模块即取即用,无需耗费大量时间研究建模代码,探索模型开发逻辑,消除人员交接的障碍。

技术方面:AI.Modeler紧跟技术潮流,充分利用开源力量

飞算云创在AI.Modeler中使用开源框架,保持技术先进性。 AI.Modeler用到的主要开源框架包括Spring Boot和Spark。Spring Boot具有易于部署、高扩展性等特点,并且方便集成更多的主流组件,保证整个平台的稳定性和安全性。Spark最主要的特点是分布式计算,适用于海量数据计算场景,不但运算速度快而且成本更低。

服务方面:AI.Modeler具备新手友好型培训体系,可实现快速产出

飞算云创为AI.Modeler建立了完善的培训体系,使其具有较低学习成本。 飞算云创为AI.Modeler建立了完善的培训体系,包括产品白皮书、线上使用手册、产品培训视频、线上产品体验等。依托全自动能力和完善的培训体系,AI.Modeler的学习成本比较低,对于AI.Modeler Lite用户而言,只需一天培训即能熟练上手建模,对于AI.Modeler Pro用户而言,经过三天培训即可创建模型进行业务应用。 

04

AI.Modeler在泛金融行业备受认可,已在多家知名金融机构落地应用

AI.Modeler在泛金融、零售和医疗等行业进入落地应用阶段,其中以泛金融行业最为深入,已实现多个场景的成功落地,包括智能风控、精准营销、智能推荐、销量预测、客户流失预警、逾期预测、反欺诈、反洗钱、故障预测等。

飞算云创已经和多家知名金融机构建立合作关系,以AI.Modeler为抓手助力金融机构实现智能决策。

案例1 某大型银行选择AI.Modeler,营销转化率实现数倍提升

需求: 在该POC项目中,此银行希望基于大数据平台对个人客户群体进行产品购买预测,为业务部门提供更有力的决策支撑,进而提升结构性存款产品销量。

解决方案: 在2022年6月,飞算云创选择行方专家模型作为本次POC项目的对标对象,通过真实客户触达后统计营销结果进行线下验证,通过真实结果证明AI.Modeler价值。 

效果: POC结果显示使用模型名单与专家模型随机抽取的测试数据进行模型评估,确定模型的召回能力和稳定性,在实际执行营销的3万多客户中,通过AI.Modeler建模的营销转化率为专家模型的7.9倍,且平均购买金为专家组3.6倍。并且,相较于以往的营销建模方式,AI.Modeler展现出了更高的效率。AI.Modeler的实力和价值得到银行的充分认可,双方已进入正式合作阶段。

案例2 AI.Modeler彻底改变京发科技建模范式,14人/天超预期完成项目

需求: 在深圳京发科技控股有限公司项目中,该金融机构信贷部门目前采用传统的人工编程建模方式,涉及到贷前、贷中、贷后各场景,经过多年发展,业务量日益增长,业务也趋于复杂化,建模团队的模型任务愈发加重。目前建模人员通过编码来实现数据获取、数据预处理、变量筛选、算法实现、模型开发评估、评分转换等一系列流程,上线一个模型需要数月时间。深圳京发科技控股有限公司建模团队面临人手不够与短时间内上线风险决策系统配套模型(集团年度重点项目)的项目压力,希望借助AI.Modeler的力量。

解决方案: 通过三个方面改变该公司建模团队的开发范式。第一个方面是“可视化操作界面,提升开发效能”:团队使用AI.Modeler进行可视化界面开发替代原来手工编码的开发模式,可清晰按照业务逻辑,最大限度贴合需求开发业务功能,效率倍增。第二个方面是“标准化组件保证模型质量”:利用平台提供的满足规范验收标准的组件进行开发,杜绝了因人工编码造成的代码质量问题,节省团队大量审代码、改BUG等时间成本。第三个方面是“从根源解决平台稳定性及安全性缺陷”:AI.Modeler集成满足国家信息安全等级保护三级认证,要求的安全规范和管理模式,保障电商平台的系统强壮度和安全性能。

效果: AI.Modeler上线后,彻底改变了该公司建模团队的开发范式,使建模团队仅用14人/天的工作量便高效完成了模型开发,远超预期。

用数据和智能技术驱动业务发展,是数智化时代企业转型的必由之路。在新一轮科技革命和产业变革浪潮下,企业家们需要思考如何顺势而为,拥抱变化。对于新技术、新产品,企业应该积极尝试,但不应该盲目尝试,而是结合多方面信息综合考虑后再进行选择。同理,企业在为数据科学团队选择数据建模工具时,需要结合易用性、成本、功能等因素慎重选择,选择一款与自身需求紧密贴合的,能为企业带来实际价值的产品。

注: 点击左下角 “阅读原文” 可浏览 新版爱分析 官网 ,了解更多信息。

「其他文章」