白鲸开源代立冬:数据技术快速更迭, DataOps 应运而生
代立冬
白鲸开源联合创始人,Apache DolphinScheduler PMC 主席,Apache SeaTunnel PPMC,Apache 基金会正式成员,Apache 孵化器导师,ApacheCon Asia 大数据论坛主席。
近日,OSCHINA 和 Gitee 联合发布了《2022 中国开源开发者报告》。白鲸开源联合创始人代立冬在报告中对开源大数据领域发展进行了解读,以下为原文。
数据技术快速更迭, DataOps 应运而生
2022 年的大数据发展如火如荼,OLAP、数据湖、数据集成、DataOps、MLOps 等领域非常火热,企业数字化、数智化发展十分蓬勃,开源原生公司发展迅速,数据湖三剑客 Apache Iceberg、Apache Hudi 加上 DataBricks 主导的 Delta Lake 都已经有商业化公司的助力。数据领域的估值愈发突起,比如 DBT Labs 估值已经达到 40 多亿美金,Airbyte 估值已经 15 亿美金。国内以天谋科技、思斐、SelectDB、白鲸开源为代表的大数据开源原生公司开始展露头角。
数据技术正在快速迭代,且迭代速度比以往任何时候都更快,每年新诞生的技术多达几十种,在此的背景下,DataOps 应运而生。DataOps 围绕云原生、敏捷智能化、多云能力等方向重构现代数据技术栈,涵盖了现代数据处理的整个生命周期,包括数据采集、数据加工(ELT/ETL)、数据集成、数据安全、数据治理等多个方面,利用 DataOps 可以高效打造现代数据智能高速公路。
根据 Gartner 的总结,我们来看一下 DataOps 在数据运营体系关键要素中的作用:
(1)流程控制:在 DataOps 中,自动化测试和统计流程控制在数据管道的每一步运行,过滤和消除数据错误,这些数据错误会破坏分析,并产生大量计划外工作影响生产效率。
(2)变更管理: DataOps 关注的是跟踪、更新、同步、集成和维护驱动数据分析管道的代码、文件和功能组件。
(3)并行开发:DataOps 组织并划分数据开发各个阶段,以便团队成员可以高效地协同工作,而不会发生资源冲突。
(4)虚拟化技术环境: DataOps 会虚拟化技术环境,以便将开发与生产隔离。虚拟化可以让业务创新更轻松地通过开发流程,并快速流向生产环境。当需要时,数据分析师可以快速启动一个开发环境,其中包括所需的工具、安全访问、数据、代码。
(5)复用:DataOps 支持复用模型,标准化被广泛使用的功能和分析组件,并简化虚拟环境之间的迁移。
(6)响应能力和灵活性:DataOps 设计数据分析管道以适应不同的运行时情况。这种灵活性使分析能够更好地响应组织的需求和不断变化的优先级。
(7)快速变化:DataOps 将构建技术环境,以实现尽可能短的开发周期时间,同时满足数据使用者的要求。DataOps 的设计理念就是基于变革,DataOps 体系结构将动态数据处理能力视为 “核心思想”,而不是 “亡羊补牢”,做事后的更改。
(8)团队协同:DataOps 协调任务、角色和工作流,以打破不同数据团队和业务团队之间的障碍,以便更好地协同工作。
可以说,DataOps 是快速实践数字化转型的理论指导,贯穿于现代数据技术栈的始末,DataOps 也是降本提效的最佳路径,实践 DataOps 路径的收益立竿见影。
《2022 中国开源开发者报告》报告由” 前沿开源技术领域解读 “ ” 中国开源创业观察 2022“,以及” 开发者画像分析 “ 三个章节组成。
在 “前沿开源技术领域解读” 部分,多位在其领域有所建树的一线开发者和开源商业化公司创始人,对目前国内外流行的前沿开源技术领域过去的发展和未来的趋势进行了深入的洞察,覆盖开源云原生、开源 AI、开源大前端、开源大数据、开源 DevOps、RISC-V、开源操作系统、开源数据库、编程语言九大领域。
欲了解更多报告内容,请点击:http://gitee.com/report/china-open-source-2022/
- 从云原生到 Serverless,我们对数据库还有哪些想象?
- 2022 年大前端总结来了,我们能抓住什么?
- 15 大分论坛不容错过,GOTC 2023 即将拉开帷幕!
- WebGPU 尚未发布,Orillusion 提前公测,我们先和创始人聊了聊
- 多样性算力、全场景支持是操作系统刚性需求
- Thoughtworks 技术专家 Phodal:2022 年前端趋势总结
- 云原生业界生态空前活跃,要落地仍然考验创造力
- eBPF为云原生应用可观测性开启更多可能性
- 白鲸开源代立冬:数据技术快速更迭, DataOps 应运而生
- 下一代开源操作系统 因云而与众不同
- 争执不断,但低代码的发展已经成为趋势
- 网关基础设施或迈出走向标准化的关键一步
- 前后端开发的边界越来越模糊
- 为什么说 AI 标准化和规模化应用来临?
- 平台工程理念崛起
- 云原生成为数据库产品的重要演进方向
- 开源数据库赛道为何吸金?
- 数据湖与 LakeHouse 依然炙手可热
- 操作系统根社区或能应对停服难题
- 统信王耀华:把握开源操作系统供应链安全