为什么说 AI 标准化和规模化应用来临?
袁进辉一流科技 CEO & 创始人,兼任之江实验室天枢开源开放人工智能平台架构师、北京智源研究院大模型技术委员会委员。
近日,OSCHINA 和 Gitee 联合发布了《2022 中国开源开发者报告》。一流科技 CEO & 创始人袁进辉在报告中对开源 AI 领域进行了解读,以下为原文。
开源吞噬软件 1.0,“开源 AI ”运动也正在席卷以数据驱动编程为特点的软件 2.0 时代。
从框架开源,数据集、算法开源,再到模型开源,开源极大推动了 AI 在技术、应用等方面的发展。比如,基于开源社区的孵化,2022 年最火热的 Stable Diffusion 模型在不到两个月的时间便流行开来,国内企业和研究机构也迅速跟进,比如 OneFlow 将 Stable Diffusion 的图片生成速度加速到 1 秒以内,IDEA 和智源研究院分别发布了中文版的 Stable Diffusion 和支持多种不同语言的 AltDiffusion。
更重要的是,开源模式使得 AI 标准化和规模化趋势开始成型,从算法的标准化开始,带来了软件标准化的机会,而硬件、技术平台、最佳实践也在标准化。
在 AI 算法模型方面,数据驱动人工智能的算法统一为神经网络,完成了算法的标准化。其中,Transformer 的发展呈现了统一深度学习算法的苗头,而依靠 Transformers 库起家的 HuggingFace 平台已发布超 10 万个开源预训练模型,大大降低了用户使用门槛,而当 AI 模型足够多时会进一步标准化,进而推动 AI 产业化进程。
在开源深度学习框架层面,API 接口正在标准化。其他框架的 API 设计都在学习 PyTorch。而在分布式编程方面,PyTorch 等其他框架的分布式编程接口也参考了 OneFlow 的 Global Tensor、SBP 的设计思路,这也彰显了国产框架的创新性和影响力。
硬件层面,虽然芯片市场打得如火如荼,但 API 设计层面也越来越类似。多数硬件厂商 API 的设计会参考英伟达的软件接口。图编译器层面也有一些通用组件出现,比如 MLIR,越来越多项目开始基于 MLIR 来构建深度学习编译器。
随着深度学习框架和硬件在内的基础设施的标准化,基础平台方面已经出现了 K8S、Docker 这些越来越标准化的解法,有的企业需要弹性扩容,有的需要私有云部署,有的需要扩容到公有云等,这需要多云的支持。通过提炼最佳实践提炼,形成了 MLOps 产品,而这正是工作流程标准化和平台标准化的体现,这也是今年 AI 领域最热门的趋势之一。
开源打破了很多技术壁垒,从框架开源到模型开源,必将进一步推动软件 2.0 时代 AI 技术的普惠化。未来,任何一家传统企业即使没有专业的 AI 科学家,借助这些开源工具和模型也能获得 AI 的能力。
《2022 中国开源开发者报告》报告由” 前沿开源技术领域解读 “ ” 中国开源创业观察 2022“,以及” 开发者画像分析 “ 三个章节组成。
在 “前沿开源技术领域解读” 部分,多位在其领域有所建树的一线开发者和开源商业化公司创始人,对目前国内外流行的前沿开源技术领域过去的发展和未来的趋势进行了深入的洞察,覆盖开源云原生、开源 AI、开源大前端、开源大数据、开源 DevOps、RISC-V、开源操作系统、开源数据库、编程语言九大领域。
欲了解更多报告内容,请点击:http://gitee.com/report/china-open-source-2022/
- 从云原生到 Serverless,我们对数据库还有哪些想象?
- 2022 年大前端总结来了,我们能抓住什么?
- 15 大分论坛不容错过,GOTC 2023 即将拉开帷幕!
- WebGPU 尚未发布,Orillusion 提前公测,我们先和创始人聊了聊
- 多样性算力、全场景支持是操作系统刚性需求
- Thoughtworks 技术专家 Phodal:2022 年前端趋势总结
- 云原生业界生态空前活跃,要落地仍然考验创造力
- eBPF为云原生应用可观测性开启更多可能性
- 白鲸开源代立冬:数据技术快速更迭, DataOps 应运而生
- 下一代开源操作系统 因云而与众不同
- 争执不断,但低代码的发展已经成为趋势
- 网关基础设施或迈出走向标准化的关键一步
- 前后端开发的边界越来越模糊
- 为什么说 AI 标准化和规模化应用来临?
- 平台工程理念崛起
- 云原生成为数据库产品的重要演进方向
- 开源数据库赛道为何吸金?
- 数据湖与 LakeHouse 依然炙手可热
- 操作系统根社区或能应对停服难题
- 统信王耀华:把握开源操作系统供应链安全