2022 年的 AI 开发工具和大模型演进丨XDC 2022

语言: CN / TW / HK

GPT-3 的出世引发了 AI 大模型的热潮,两年过去了,产业界是否驯服了大模型?大模型又是否具备了成为 AI 基础设施和商业模式的潜力?事实上,GPT-3系统的流畅程度对很多人来说是一个巨大的飞跃,但它仍然存在一些问题,它可以编写与人类极度相似的文字,写一部引人入胜的超现实主义小说,但却无法保证语言的准确性——它的输出符合语法,却让人无法理解。

大模型在近两年来已经应用到了许多场景,它可以提供计算服务,进行写作、创新点子、面试题、商标等多个内容的辅助生成,在中低速应用场景中也有不错的表现。但是,在高速、高并发的应用场景中,大模型还有许多技术难点需要突破。

当我们将视野转向底层的AI开发工具,会发现那些备受关注的深度学习框架也有很多进展。transformer高速发展,在视觉任务领域的适用性已经被证明,在音频文本序列任务也基本革了RNN的命,成为了NLP、CV、ASR等领域的主流模型。由各厂商优化的工具、开源 AI 框架等也将端与端的高性能AI应用进一步优化。未来,不论是AI开发工具还是大模型还会进一步发展,应用到更多场景,实现更多突破。

7月22、23日即将举办的2022稀土开发者大会上,由北京一流科技有限公司创始人袁进辉(老师木)作为出品人的《AI开发工具和大模型推进》专场,将邀请产业界的 AI 专家,破疑解惑,寻找真正的技术价值。本届开发者大会免费报名中,点击链接或识别海报二维码即可与各位牛人分享交流。

演讲主题:如何利用 Intel 加速工具构建端到端的高性能应用

介绍 Intel AI 方案及软件生态,并分享如何利用 Intel 优化的 Python 工具、开源 AI 框架等优化端到端的高性能 AI 应用。

演讲大纲:

  • Intel 的 AI 加速计算平台

  • 面向 AI 开发者的 Intel AI 软件工具加速数据、模型和部署

  • 高性能应用的端到端 AI 应用实例

演讲嘉宾:

夏磊 英特尔人工智能首席工程师、首席架构师

现负责支持中国数据中心客户,在 IA 架构上利用 Intel 最新硬件加速方案进行 AI 领域的技术合作。长期支持各行业,利用人工智能、视觉计算、传感器等领域技术进行应用创新。

演讲主题:Transformer 系列模型量化训练与推理

Transformer 系列模型已经成为了 NLP、CV、ASR 等领域的主流模型,因此如何更快地训练和推理 Transformer 模型成为业界研究的一个重要问题。低精度量化技术通过降低数据的位宽来大大加速计算和通信过程,因此成为了训练推理加速的一个重要手段。但与此同时,量化会造成精度和效果上的损失,需要通过量化感知训练等手段来减轻损失。业界目前还没有一款工具,可以同时实现 Transformer 模型的量化训练、量化推理和精度无损。因此 LightSeq 针对这些重难点进行了研究,首次在业界实现了全套功能。 具体实践上,LightSeq 通过 int8 GEMM 实现了真量化训练过程,而不是业界广泛使用的伪量化方法,因此训练速度提升了 10 倍以上。而通过 PACT 等量化策略,可以将量化训练的损失减小到最低。在将量化模型导出为 LightSeq 支持的格式之后,可以进一步使用 LightSeq 量化推理引擎实现快速推理,在 T4 显卡上提速最高 70%。LightSeq 开箱即用,支持 Transformer、BERT、GPT 等多种模型的量化全流程,提供了丰富、多层级的 API 和使用示例。

演讲大纲:

  • Transformer 和量化背景介绍

  • 量化感知训练技术

  • 量化位置

  • 训练策略

  • 显存管理

  • 量化推理技术

  • 算子融合

  • 显存管理

  • 性能分析

  • 系统架构及使用示例

演讲嘉宾:

韦阳 字节跳动 AI Lab NLP 算法工程师

主要研究机器翻译、模型优化方向,是模型训练推理加速项目 LightSeq 的核心开发者之一。

演讲主题:源1.0大模型及开源开放进展

将从业界现状、源1.0大模型创新与实践、应用落地等角度,讲述源1.0大模型及开源开放的进展。在数据上,将结合“源1.0”海量数据处理平台,讲述如何对 2017 至 2021 年间 866TB 互联网海量数据进行清洗并获得 5TB 大规模高质量中文数据集。在算法上,将结合“源1.0”讲述大模型算法实践的技巧,及如何在 2128 颗 GPU 集群上取得业界领先的训练性能。在应用上,将结合“源1.0”大模型的开源开放计划,讲述源1.0在写作、对话、虚拟人等领域的应用情况,探讨大模型的落地。

演讲大纲:

  • 业界现状分析

  • 源1.0创新及实践

  • 源1.0应用落地

演讲嘉宾:

吴韶华 浪潮信息 AI 软件研发总监

研究方向为人工智能与分布式计算,带领团队研发了 2457 亿参数的“源1.0”大模型。当前致力于认知理论及方法、大规模分布式训练等方向研究。

演讲主题:Vertex AI 助力大模型搜索和训练

预训练大模型已经成为 AI 应用落地的新范式,但大模型对数据、算力和算法都提出了新的挑战。Google 在应用、算力、算法及 AI 开发工具上大手笔动作不断:基于多模态的图文搜索 MultiSearch,基于 TPUv4 超强算力世界最大的 ML Hub,帮助搜索更好模型的 Vertex NAS ,一站式的 AI 训练和推理工具集 Vertex AI 等等。

演讲大纲:

  • AI 前沿新范式: 万亿参数级预训练大模型

  • Vertex NAS 搜索下一个 SOTA 网络结构

  • 9 ExaFlops 世界最大公开可用 ML Hub

  • Google Cloud TPU/GPU 分布式训练实践

演讲嘉宾:

王顺 Google Cloud AI/ML 专家

协助和赋能中国出海企业客户在 Google Cloud 上进行 AI/ML 相关业务的实践,包括在 TPU/GPU 上进行超大规模深度学习模型的分布式训练;部署端到端的一站式机器学习训练平台和 MLOps 最新实践;CV、NLP、Speech、多模态模型生产部署,A/B 测试和性能优化;定制化解决方案的协作开发,比如电商推荐系统、基于图文等多模态模型训练等。在加入 Google Cloud 之前曾在人工智能初创公司旷视负责及参与多项 AI 技术在企业落地,包括人脸识别、证件 OCR、淘咖啡无人店等项目。

演讲主题:PPL:高性能推理在车载智能场景下的应用与实践

推理引擎作为连接算法模型与产品落地的部署平台核心组件,是 AI 大装置赋能百业的重要一环。商汤 PPL 是国内最早的自研推理引擎之一,目前服务于安防、金融、手机、娱乐互联网、智能硬件和智能驾驶等多个 AI 重点赋能领域。本次演讲将分享商汤 HPC 团队对于推理部署的技术思考和性能优化经验,并以车载智能案例为例,讲述如何协同业务团队,在不同硬件平台上进行适配,并完成端到端的推理优化提升。最后,本次演讲也将分享 PPL 的进一步开源计划,与开发者共同探讨 AI 部署的挑战与未来,助力国产 AI 生态的繁荣。

  • 商汤自研高性能推理引擎 PPL 的发展与演进

  • PPL 性能优化经验分享

  • 硬件架构特性分析

  • 基于 Arithmetic Intensity,探索优化方向

  • 基于微架构的指令集调优

  • PPL 落地实践

  • 绝影智能车舱

  • 车载智能部署的难点与思考

  • 基于 PPL 的高性能车载解决方案

  • 硬件适配,通用平台全场景加速

  • 社区开源计划:OpenPPL

  • PPL 的挑战与未来规划

演讲嘉宾:

许志耿 商汤科技高级系统研究员

商汤科技高级系统研究员,推理引擎 PPL CPU 与加速器方向负责人。本硕毕业于上海交通大学计算机系,研究方向为高性能计算。曾参与神威·太湖之光超级计算机上的科学计算核心深度优化;建立了 AI 加速器上的商汤自研推理引擎。在 PARCO、IPDPS、ICPP 等国际会议和期刊上发表过多篇论文。目前在商汤科技高性能计算与推理部门负责 CPU、DSP 和 NPU 等架构方向的推理引擎研发与业务落地。

本届大会策划的专题除AI开发工具与大模型演进以外,还包括了开源和商业化探索、大前端、低代码、业务背后的架构演进、微服务和Serverless、云原生技术架构和变革等十数个技术专场,由来自字节、阿里、腾讯、快手等公司具备技术影响力与洞察力的行业专家负责议题把控,目前大会出品人已全部集齐,讲师阵容即将确认完毕。除了为期两天的沉浸式内容体验,稀土开发者大会还为万千开发者朋友们准备了丰厚的奖品,报名参会的开发者将有机会参与抽奖,赢取丰厚大奖,敬请期待。