服务器之家:专注于服务器技术及软件下载分享
分类导航

服务器资讯|IT/互联网|云计算|区块链|软件资讯|操作系统|手机数码|百科知识|免费资源|头条新闻|

香港云服务器
服务器之家 - 新闻资讯 - 云计算 - DataOps成熟度框架 VS 云原生数据中台!

DataOps成熟度框架 VS 云原生数据中台!

2023-05-25 12:00未知服务器之家 云计算

来源:架构营 全文共 5539 个字 , 建议阅读 10 分钟 01 什么是 DataOps? Q:现在越来越多的技术和厂商都在产品中会提到 DataOps,但是可能目前大家对 DataOps 定义还没有很统一的定义。那么,到底什么是 DataOps?为什么它现在会被很多

来源:架构营
全文共5539个字建议阅读10分钟

01什么是 DataOps?

Q:现在越来越多的技术和厂商都在产品中会提到 DataOps,但是可能目前大家对 DataOps 定义还没有很统一的定义。那么,到底什么是 DataOps?为什么它现在会被很多企业青睐?

A:DataOps 是从 DevOps 借鉴的一个理念。可以理解为 DataOps 是把 DevOps 的一些理念映射到了数据开发上,它们的很多观点是可以一一对应的,如开发及运维、云原生、微服务化、CI/CD,这些都可以在 DataOps 里找到,如果你的 DevOps 里没有这些概念,就要考虑下你的开发流程是不是符合最佳实践。

但 DataOps 与 DevOps 也有区别。DataOps 是想处理数据,而在 DevOps 里是不需要处理数据的,它主要是做应用的开发,应用的 CI/CD、发布及运维。但就像刚才说的,DataOps 实际上属于一个比较早期的概念,大家对它的解读还是会有不一样。

在 DataOps 里面有很重要的一点,就是要处理数据的各种不可预知性。数据语义是一个难题,它没办法在 CI/CD 里被容易定义,不是没有办法,但很困难。之前大部分原生大数据组件开发时并没有考虑到这个规范。

DevOps 也经过了很长一段时间的演变,像 Git 逐渐成为规范,微服务基本上都是标准的组件。大数据组件体系架构特别多、选择特别多,发展也特别快,现在的 Spark、流数据,Flink,卡夫卡,底层基本上也是 K8S、Hadoop 和 Hdefs,这些基本上可以形成标准化。那么,现在就是做 DataOps 一个比较好的时候。

DataOps 的工作主要有五个方向:

第一个是任务调度。主要包括云原生调度、容器的调度,这跟 DevOps 是一样的。

第二个是数据安全。数据安全以前基本不在 DataOps 的考虑范围,也不在数据开发的范围内,但现在数据安全很重要。

第三个就是数据管理和数据门户。大家可能会说原数据管理不都好多年了,但以前的原数据管理主要是针对关系型数据库,关系型数据库对原数据的管理相对容易,只要到数据库里把原数据爬出来就可以。但现在有流数据、非结构化数据,还有 TaiDB 等,各种各样的原数据怎么样去管理?血缘管理更复杂了。之前是几个 SQL 之间的血缘管理,现在关系到各种各样的查询、各种各样的系统、数据门户跟 MapDatas 是一样的。

第四是数据检测的可视化。DevOps 里有很多可监测到的指标,数据层面也一样。用多少资源、花多少时间、创造了多少价值,之前都是一个黑盒子,但 DataOps 的整个数据都是端到端的,相关指标可观测、可管理。

第五就是集成开发。所有的工具必须是可集成的,不可能做一个工具负责血缘管理,再做一个工具负责调度。

我认为,DataOPS 里面必须具备这五个工具体系,如果你的 DataOps 体系里面缺了任何一个,我都觉得是不完善的。

Q:DataOps 如何做持续测试?

A:数据开发、数据程序的测试一直是老大难问题,甚至头部大厂整套流程做下来也是现在非常困难的。现在 DevOps 里有一个很有意思的观念,就是把集训资源的管理全部用 Code 来管理,大数据也一样。美国有一个很火的公司叫 DTB,它是要把所有的 ETL(数据仓储技术)流程做成代码管理,将 SQL 的所有转换变量化、代码化,将所有 ETL 程序间的关系、血缘全部用代码的形式来进行管理。

可以说,不只 SQL 是代码,整个调度也都是代码。所以,DBT 的整个 ETL 程序可以被放到 Git 里面。用户可以在指定的 data source 的测试环境中可以测试,可以到 Data 生态环境中直接切换一个 Data source,将其变成生产环境,所以它允许支撑 ETL 流程的 CI/CD。将所有 ETL 程序之间的依赖全部代码化,这就是 DTB 的一个思路。

除了 ETL 之外,我们现在做的事就是把所有大数据组件里面的关系、程序全部代码化,这是未来的必然趋势。


02DataOps 与云原生数据中台的关系
Q:DataOps 与云原生数据中台是什么样的关系?他们目前各自的发展情况如何?

A:国内数据中台也提了两三年了,有成功的案例也有失败的。我们在这方面也做了很多探索。我们的观点是,数据中台绝对要做,但 DataOps 是实现数据中台的一个最好的方法论和工具体系。

这跟 DevOps 是一样的。一个业务系统可以使用 DevOps 方法来做,也可以使用传统方法去做,两种方法最后做成的业务系统可能都差不多,但这只是开始的时候差不多,后面的持续迭代、持续运维的时候,就能看出来 DevOOps 的优势了。

数据中台也是一样,它是给大家提供一个数据开发和运营的底座,开始你可以用各种各样的方法去做一个数据平台,但是后续迭代和不断发展的时候,DataOps 就成为最合适的一种方法。DevOps 提倡的是赋能和自助,通过 CI/CD 持续发布,开发工程师自己来做运维测试,DataOps 也一样,也是提供工具让各个业务部门等数据使用者,能够在中台上拿到自己需要的功能。我们认为这是 DataOps 和数据中台的关系。

Q:企业如何去做云原生数据平台的改造?整个过程可能会面临哪些问题?

A:我觉得,现在云原生的数据中台还是一个比较有挑战性的课题,但也是个必然的趋势。很多企业的数据平台效率非常低,因为传统大数据平台使用的 Hadoop、卡夫卡等都不是在云原生的方式下开发,资源使用效率低、管理复杂,但云原生会大大降低整个系统的管理复杂度,提高系统的使用效率和运营效率。

这个过程中会面临的困难,主要是人才问题。这个技能的门槛比较高,需要研发既懂云原生又懂新技术,这样的人才缺口还是挺大的。但这也有个好处就是,云原生产品的标准化程度比较高,这样容易做出标准化的产品让大家使用。

举个例子,以前装一个大数据平台需要直接面对底下的物理及虚拟机,但各种各样的配置,不同的操作系统、环境和网络,所有这些都得去管理。K8S 的出现就让大家不必再考虑所有的底层组件,只要跟云原生这个体系对接就可以了。这是一个很好的机会,所有的企业一定会看到,但这个过程肯定是需要时间的。

Q:您之前多次提到过“数据中台方法论”,这个方法论具体都包含哪些内容?

A:这个方法论的主要目的就是追求效率。我们国内很多客户的大数据平台的资源使用率大概都是 15%-20%,但 Twitter 的自然使用率一般能达到 50%-60%,而且还有各种各样的弹性扩展、自动容错等云原生功能。

了解这个之后,需要做到以下四点:

第一,选择合适的工具和平台。这个是基础,选不到合适的架构工具,也就不存在效率了,所以如何选择合适的平台工具很重要。

第二,要有一个完善的顶层架构设计。因为数据平台要把大家的数据接进来,与业务系统对接起来才能产生效果。DevOps 分布式的开发,集中式的管理,但这个集中式管理不是靠人,而是靠体系和工具。

第三,业务驱动。为了大数据而大数据一般成功不了,一定是可以解决业务问题的才能走到最后,解决不了业务问题的数据平台是伪命题。解决业务痛点之后,还要赋能业务。要把业务部门引入进来,不断使用这个数据平台,获得业务部门认可后这个东西才能走。

第四,要有价值衡量体系。如何量化产生的价值,很困难但是也很重要。我们一般要求决策方、业务方,技术方和数据平台等各方面职责明确,避免后面出现越来越多的问题。


03DataOps 应用
Q:2018 年,高德纳把 DataOps 纳入了技术管理成熟体系曲线里面,DataOps 被正式接纳和推广。三年过去了,目前有什么成熟的应用案例出来吗?

A:DataOps 在云原生出来之前就有,但可能没有叫这个名字。头条、腾讯等大厂们都有自己的一套 DataOps 体系,Twitter 等硅谷公司也有,那为什么现在才提出来?因为这个东西要产品化。虽然大厂都有 DataOps 体系,但是将近一百人的数据团队,eBay 大概有三百多人,一般企业很难请得起这么多高薪的人才。

现在 DataOps 火了是因为大家都需要,数据价值不是大厂独有的。但横梗在前的成本问题怎么解决?这就需要 DataOps 工具将数据价值开发平移化。为什么称为云原生的 DataOps?因为只有云原生技术统一了各种各样的硬件环境、开发环境、发布环境、运维流程等等之后,DataOps 才可以将聚焦在数据开发、数据监控、数据管理、原数据和数据安全上。

Q:您在 Twitter 的时候,一个主要职责就是让公司所有的人避免重复开发数据组件。这个需求是在一个什么样的背景下产生的?

A:这个就是很重要的不要重复造轮子的问题。重新造轮子会造成资源消耗,然后减慢开发速度。要避免不重新造轮子,那么就必须知道现在有什么“轮子”,但很多企业并不知道自己有什么“轮子”。DataOps 很重要的一点就是原数据管理,它的原数据管理比原来的要更广泛,它可以知道整个企业有什么样的数据功能。

更重要的是,企业重新造轮子,一旦两个轮子造得不一样,会把这个车开垮。我们原来做数据门户,就要求所有的业务部门和数据分析师必须做统一的接口,然后发现有两个部门就在重复造轮

Q:DataOps 会有开源生态吗?

A:目前是逐渐成熟的过程中,还没有成熟到大家都可以使用的端到端产品。

我们之前公众号有篇文章讲到,硅谷的大概十几家公司,每个公司都有自己的数据门户和产品,但是没有成熟的产品。今年 6 月份左右,Linking 将自己的数据门户产品开源了,也有人在做血缘管理,但都是这两年才起来的公司。这个生态在逐渐形成,但是远远没有到达成熟的阶段。

Q:现在,DataOps 还解决不了哪些问题?

A:我觉得,当前 DataOps 没办法解决业务价值的挖掘问题。DataOps 实际是降低了数据使用门槛,让更多的业务人员可以直接开发他们需要的数据并将这个开发成果给大家使用,这在以前必须要依赖数据科学家或者数据工程师。但是,如何把这些数据与业务结合起来、用数据去促进业务,这不是 DataOps 能回答的问题。我们只是赋能,但是真正怎么样让你的数据去促进企业的业务发展,那一定需要企业懂自己的业务。


04DataOps成熟度框架


2022大数据产业峰会上,中国信通院正式发布了《DataOps成熟度框架》。


自2014年大数据首次写入政府工作报告起,我国大数据产业飞速发展,需求旺盛、供给强劲。在国家大数据相关政策的护航下,我国的大数据产业已进入深化阶段。随着发展的不断深入,企业数智化转型逐渐到达了瓶颈,各类矛盾浮出水面。


DataOps成熟度框架 VS 云原生数据中台!


一是效率与管理之间的矛盾。数据项目寻求快速交付,那么管理就难以贯彻落实。在执行上往往就出现了管理和实施两张皮的现象,许多基础工作遭到了忽视,从而产生了诸多的质量问题;


二是业务与技术之间的矛盾。以前我们技术水平落后,面对的是巧妇难为无米之炊的问题。现在技术发展迅猛,但在业务和技术的衔接上出现了问题,难以有的放矢。


三是需求与供给之间的矛盾。现在的技术发展迅猛,面对企业提出的需求,供给侧能够给出各式各样的解决方案。需求方精力都用在识别和对比,缺乏对需求的深入思考,远离了问题的本质。


DataOps成熟度框架 VS 云原生数据中台!


在数智化转型的大背景下,企业逐步意识到数据的重要程度空前。各行各业加速建设企业内部信息系统,加快数据平台构建。但在朝数智化转型迈进的过程中,总是存在着一些问题,阻挡着企业完成数智化蜕变。


从企业角度来看,在数据项目的开发、维护、管理的过程中,普遍会遇到一些典型的问题,例如数据项目的人工依赖度高、团队协作配合困难、需求响应时间低于预期、开发流程不够顺畅、管理要求难以贯彻等问题。


已有研究数据报道:99%的企业数字化转型以失败告终,84%的数字化转型项目未能达预期。


DataOps成熟度框架 VS 云原生数据中台!


在数智化转型这一阶段,企业的业务正处于发展的关键时期,组织内的数据意识已经逐渐成熟,数据相关的需求在这一阶段激增。但是这一阶段,技术引擎的动力略显不足,数据项目的成本高、数据准备的时间长、数据需求的响应不及时。种种问题阻碍住了企业完成数智化蜕变。也是与此同时,DataOps以破局者的身份出现在大家的视野当中,为企业的数据引擎换挡。


DataOps成熟度框架 VS 云原生数据中台!


DataOps的概念最早在2014年由国外学者提出,随后业界逐步对其内涵进行补充。在2018年DataOps正式被纳入Gartner的数据管理技术成熟度曲线当中,由此进入了国际的视野当中。2022年中国信通院正式牵头启动了DataOps的标准建设工作,以此为基础推动我国大数据产业的多元化发展,助力企业完成数智化蜕变。


从发展上看,自2018年被Gartner纳入到数据管理技术成熟度曲线以来,DataOps热度逐年上升,在21年处在一个从萌芽期到爆发期的关键过渡阶段,预示着未来2-5年内DataOps将得到广泛的实践应用。


从定义上看,Gartner、IBM、Wikipedia争相对DataOps提出了自己的定义。普遍认同DataOps具有敏捷、协作、自动化等特点。并且也提到了人员、流程、技术三者融合协作的重要性。


DataOps成熟度框架 VS 云原生数据中台!


实践上看,欧美国家的一些公司在DataOps的探索和发展上要早于中国。现阶段,我国有更广阔的发展空间和挖掘潜力,在制度保障、人才培养、技术储备发展上都有着长期优势。


在国外。有如Twitter、Google等公司使用面向未来的数据架构,有如IBM公司也在多年前就开始研发了诸如Knowledge catalog、DataStage、Cloud Pak for Data等符合DataOps理念的解决方案,也有像StreamSets公司这样以DataOps思想来引领开发的工具产品。


在国内。也有很多的企业先驱者,通过敏锐的嗅觉和强大的管理执行力去探索DataOps的实践。如中国工商银行、农业银行、平安银行等多家银行机构,联通数科、广东移动、江苏移动、浙江移动等通信企业,阿里、腾讯、浩鲸、数造科技等科技公司,都在积极探索并尝试用DataOps的理念来推动我国数据文化的建设和发展。


DataOps成熟度框架 VS 云原生数据中台!


DataOps标准的建设意义在于在于三定:


确定DataOps概念意义、明确DataOps实施流程、把握企业发展阶段和方向。


再有就是通过标准引领的方式,引导企业快速接纳DataOps文化,尽快完成数智化转型,释放数据要素价值。


DataOps成熟度框架 VS 云原生数据中台!


DataOps的标准体系涵盖了7大模块,分别是研发管理、交付管理、数据运维三项核心过程,价值运营、系统工具、组织管理、安全风险四项保障措施


标准细分为25大能力、70余项能力要求和200余个动作环节。


目前,标准整体框架达成共识,并完成第一个模块“研发管理”的主体内容和要求。其余部分编制仍在进行当中,在此要感谢各个企业的支持,也欢迎更多的企业和专家一起参与到后续标准编制以及相关活动中来。


DataOps成熟度框架 VS 云原生数据中台!


该标准对DataOps的定义和能力特征达成了共识。


定义:数据研发运营一体化(DataOps)是一种面向数据全生命周期,以价值最大化为目标的最佳实践。聚焦于协同从数据需求输入到交付物输出的全链路过程,明确研发运营目的,细化实施步骤,在系统工具、组织模式、安全风险管理的支撑下,实现数据研发运营的一体化、敏捷化、标准化、自动化、智能化、价值显性化理念


在级别上划分上由低到高分为入门级、进阶级、优秀级、卓越级、引领级5个级别大项。


每个级别大项中又分为3个级别小项。从管理能力、技术能力、动作关联情况以及其他重点四大维度为企业把脉。便于企业更精准掌握现状。


DataOps成熟度框架 VS 云原生数据中台!


在7大模块中,第一个模块研发管理,已经就主体部分达成基本共识,DataOps研发管理模块包含了4项能力,12个能力项、42个动作环节、210条等级要求和600余项条款要求。


延伸 · 阅读

精彩推荐
190