数据的意义在于提供洞察力,洞察力的意义在于企业的进一步发展:更低的成本、更高的利润、更满意的客户,以及在某些情况下对紧急威胁下挽救企业生命的响应。良好的数据策略与糟糕的数据策略之间区别在于,粗略地说就是获得洞察力的时间。也就是,企业从数据分析中得出正确答案、战略或政策需要多长时间?企业对紧急威胁、中断或机遇的响应能力如何?
因为数据是现代企业的命脉,它是每个企业的主要战略资产,可以说比人力资产更重要。迄今为止,现代数据战略主要关注数据量、获取数据的速度,但较少关注数据多样性。人们现在处于一个混合的多云时代,数据环境的激增(即公有云和私有云数量的增长)是提高复杂性的一种强劲的驱动因素。在混合多云世界中,数据管理战略与业务增长战略本身越来越难以区分。虽然全球云计算行业三巨头(AWS、Azure、GCP)对于这个新世界的运作至关重要,但行业专家认为,解决混合多云的数据战略独特挑战的完整解决方案必须来自云计算三巨头之外。
云计算市场的博弈
如何在混合多云世界中集成数据?不幸的是,很多企业以传统一贯的方式来做这件事:通过在各种存储系统之间移动和复制数据——从数据湖到数据仓库和数据库之间的云计算应用程序和API等等。但是,可以假设现代数据集成需要在内部部署和云计算、托管数据中心等资产上平等运行,因为85%的企业都在多个云平台中拥有数据资产。即使是小型企业也可能将数据托管在AWS S3中,并将销售数据托管在Salesforce云平台中。
为什么内部部署数据很重要?企业将一切都在转移到云平台中,所有的云托管数据不是都已经集成了吗?先回答第二个问题:云平台只是别人的数据中心,从来没有什么神奇的方法可以将所有数据在云平台上集成。数据的物理协同定位并不意味着数据已经集成并准备好进行分析。那么如何回答第一个问题呢?实际上,一切都没有转移到云中。然而,人们越来越意识到,即使大多数数据移动到多个云平台,重要的问题不是“我们的大部分数据在哪里”,而是“我们在多少个不同的地方拥有数据?”
此外,人们越来越担心云平台的整合和三大云计算供应商锁定,以至于导致“数据遣返”(将数据从云平台遣返回内部部署设施)是一件越来越重要的事情。例如,考虑一下云计算三巨头的出口费用和入口费用是根本不对称的原因。这是一个棘手的问题:云计算三巨头不收取入口费用,因为一旦他们拥有企业的数据,他们就不会打算放弃。
所有这些都不是特定行业的担忧;如果是一家大型零售企业的首席信息官,可能会对采用AWS云平台感到疑虑,因为不确定是否希望其竞争对手AWS公司托管他们的数据。最后,还有对成本的担忧,即使没有对云计算供应商锁定的担忧。虽然很多企业都喜欢将资本支出转变为运营支出,但无论资产负债表上有多少变动都无法抵消无休止的成本增长。
那么到目前为止企业需要怎么做?
- 必须将数据集成到混合多云世界中,以促进更好的分析。
- 将数据包含在多云的任何一个云平台中,并且数据仍在内部部署设施中,这些数据可能永远不会迁移到云中。
- 数据存在的位置在增加而不是减少;这增加了而不是减少了数据集成的难度。
- 在未来。数据同时存在于许多不同的运营环境中,并且对集成或连接这些数据的要求越来越高。
最佳时代的垂直集成堆栈
现在人们已经很好地理解了云计算三巨头无法在混合多云世界中获胜的原因。其答案是,这三个巨头都在最佳的时代运营云原生、垂直集成的堆栈。这意味着与存在于其竞争对手环境中的数据集成永远不会符合这三家云计算供应商的自身利益,而这样做是混合多云中数据集成的关键挑战。在跨混合多云连接数据方面,企业的利益与三大巨头捕获和保留垂直集成堆栈内(而不是跨垂直集成堆栈)的数据资产的利益之间存在根本性的脱节。
这种脱节是一个大问题,这也是云计算三巨头无法获胜的真正原因,以下再进行一下深入了解。由于现代数据栈非常复杂,只考虑三个核心部分:
(1)数据存储在哪里?
(2)数据在哪里管理和编目?
(3)数据在哪里分析?
企业要从数据中获得洞察力,需要存储数据;还需要管理和编目该数据;最后,需要以某种方式将这些数据组合在一起,以便可以对其进行分析以产生洞察力。当然,企业还需要做其他事情,但已经有足够的细节来说明要点。
因此,云计算三巨头拥有涵盖存储、治理、分析这三个核心要素的垂直集成堆栈,并且他们拥有庞大的数据中心,所以这一切都很好。当然,如果企业的所有数据也都在或者可以驻留在云计算三巨头的存储层中,那么一切也很好。但需要记住的是,几乎每家企业都在许多数据环境(包括内部部署设施)中拥有数据。
这又是云计算三巨头面临竞争困境的症结所在,这一困境由经济、技术和监管障碍组成。只要有多云,企业就会在很多地方拥有数据。云计算三巨头将锁定这些数据资产,因此采用出口和入口的不对称以及其他策略。但是,企业的数据堆栈越高,就越需要跨越多云,而不仅仅是将其整合到存储层中。无论数据存储在哪里,客户都需要连接数据。云计算三巨头在经济和技术上都会受到激励,以防止这种情况发生。事实上,企业知道多云集成的必要性;而在堆栈的存储、治理、分析的核心存在多云数据集成问题。
由于分布在多云上的数据、创新的愿望以及寻求避免云计算锁定成本和威胁的推动,大多数企业都追求采用最佳的IT采购策略。企业的首席信息官希望选择最佳存储解决方案、最佳治理或目录解决方案以及最佳分析解决方案。例如,考虑使用Databricks(或Snowflake)进行标准化存储的企业;用于治理和编目的Collibra(或Alation);以及用于分析的Tableau(或PowerBI)。
对于企业的首席信息官或首席数据官来说,摆脱这种困境有两种方法:或者采用云计算三巨头的垂直整合堆栈,并承担上述风险,关键是忽略其他环境中的数据;或者对存储治理分析核心采用同类最佳的解决方案,并自行承担集成负担。这种困境是可以解决的,但天下并没有免费的午餐。
出于经济和监管原因,企业并不期望在这个规模和级别进行合并或收购;云计算三巨头都难以收购这三方的任何一家。因为这是不可想象的,并且会面临巨大的监管障碍,即使经济上是合理的。虽然云计算三巨头正在开发“堡垒主机”技术,以将他们的云计算环境扩展到客户的内部部署环境中,这是一个受欢迎的趋势,可以尝试想象他们将这些技术相互扩展。很难假设AWS的堆栈在GCP或Azure中可用,反之亦然。
未来将何去何从?
解决以上提出的困境的唯一可行的解决方案是采用同类最佳的方法并直接解决存储、治理、分析的集成问题。这为云计算三巨头之外的数据管理提供商留下了一个清晰而明显的机会,他们没有垂直集成的堆栈以避免自我颠覆,取代云计算三巨头并满足对混合多云数据集成解决方案的这一未满足的需求。这是因为这种级别的数据连通性是产生在知识经济中,具有竞争力所需的数据驱动的洞察力是必需的。
这里的关键见解是,企业只能通过转向数据集成解决方案来避免全栈解决方案的局限性:
(1)将数据集成从存储移动到计算,即在不移动或复制数据的情况下完全连接数据。
(2)可以同时在内部部署设施和任何云平台中运行。
云计算三巨头不会自我颠覆,也不会自己来构建这样的解决方案,因此,如果希望解决这些问题,那么将由三巨头之外的供应商、初创公司或供应商联盟来解决。研究表明,未来20年的数据集成博弈的赢家将是AWS、Azure、GCP以外的市场参与者,这意味着云计算三巨头无法赢得这场博弈。