二手老式吉普车2020-雪纳瑞图片


2023年11月20日发(作者:宝马1系两厢报价)

2022年的五个?数据发展趋势

全?共7198个字,建议阅读19分钟

2021年,我们看到围绕现代数据栈的兴起出现了相当?的加速效应。我们现在有?个海啸般的通讯、影响者、投资者、

专门的?站、会议和活动来宣扬它。围绕现代数据栈的概念(尽管仍处于早期阶段)与云中数据?具的爆炸性增长紧密

相连。云计算带来了?种新的基础设施模式,它将帮助我们快速地、程序化地、按需地建?这些数据栈,使?像

Kubernetes这样的云原?技术、像Terraform这样的基础设施即代码以及DevOps的云计算最佳实践。因此,基础设施成

为构建和实施现代数据栈的?个关键因素。

当我们已经进?2022年,我们可以清楚地看到软件?程的最佳实践已经开始注?数据:数据质量监控和可观察性、不同

ETL层的专业化、数据探索和数据安全都在2021年蓬勃发展,并将继续下去,因为从早期创业公司到价值数?亿美元的

财富500强企业的数据驱动型公司继续将数据存储和处理到数据库、云数据仓库、数据湖和数据湖仓。

下?你会发现我们预测的5个数据趋势将在2022年确?或加速。

01

数据分析师的崛起

如果说2020年和2021年是关于数据?程师的崛起(根据Dice的科技?作报告,这是最重要的)。fastest-growing job in

tech in 2020),那么在2022年,分析?程师将明确进??们的视线。

云数据平台的崛起已经改变了?切。传统的技术结构,如??体和单体数据仓库,正在让位于更灵活和可扩展的数据模

型。此外,转换可以在云平台内对所有数据进?。ETL在很?程度上已经被ELT所取代。控制这种转换逻辑的是谁?分

析?程师。

这个??的兴起可以直接归功于云数据平台和数据构建?具(dbt)的兴起。Dbt labsdbt背后的公司,实际上创造了

这个??。dbt社区在2018年开始有五个?户。截?202111?,有7300名?户。

分析?程师是?然演化的?个例?,因为数据?程很可能最终成为多个T型?程??,由开发?助式数据平台?不是开

发管道或报告的?程师驱动。

分析?程师?先出现在云端原?者和初创公司,如SpotifyDeliveroo,但最近开始在企业公司如捷蓝航空中获得地

位。你可以阅读 here an articleDeliveroo?程团队关于分析?程在其组织中的出现和演变的?章。

我们看到越来越多的现代数据团队将分析?程师加?他们的团队,因为他们正变得越来越以数据为导向,并建??我服

务的数据管道。根据LinkedIn招聘信息的数据,典型的 must-have skills for an analytics engineer包括SQLdbt

Python和与现代数据栈相关的?具(如SnowflakeFivetranPrefectAstronomer等)。

截?202112?1?的LinkedIn职位发布数据

根据LinkedIn的数据,对数据科学家的需求?约是分析?程师的2.62.7,?且这个差距还在继续缩?。

2022年,我们预计这?差距将进?步缩?,因为对分析?程师的需求继续增长,接近于对数据科学家(曾被称为 the

sexiest job in tech).

02

数据仓库与数据湖的竞争

数据界很少有?错过了2021年底DatabricksSnowflake之间?常公开的对决。这?切开始于Databricks声称其数据湖

库技术的TPC-DS基准记录,并说?项研究表明它?Snowflake2.5倍。Snowflake表?,Databricks缺乏诚信,并表

?该研究有缺陷,并有?个 \"不确定 \"的说法。

我们不必回到那么多年前,当时SnowflakeDatabricks是新兴的云计算软件创业公司,他们是如此友好,他们的销售

团队经常互相传递客户线索。现在这?切都改变了,因为Snowflake指控Databricks采?不正当的营销?段来赢得关

注。这关系到未来?百亿美元的潜在收?。Databricks的?席执?官兼联合创始?Ali Ghodsi在?份声明中指出

SnowflakeDatabricks如何在许多客户的数据堆中共存。

\"我们所看到的是,越来越多的?现在觉得他们可以真正使?他们在数据湖中的数据,与我们?起进?数据仓库?作负

载。?这些可能是?作负载,否则会去Snowflake的。\"

数据仓库供应商正在逐步从现有的模式转向数据仓库和数据湖模式的融合。同样地,那些在数据湖边开始他们的旅程的

供应商现在也在向数据仓库领域扩展。我们可以看到两??的融合都在发?。

因此,正如Databricks使其数据湖看起来更像数据仓库?样,Snowflake?直在使其数据仓库看起来更像数据湖。简?

?之,数据湖仓是?个平台,旨在结合数据仓库和数据湖的优点。根据营销术语,数据湖室结合了数据仓库和数据湖的

优点,为数据科学和分析?例提供融合的?作负载。Databricks在其营销资料中利?了这个术语,?Snowflake则更喜

欢数据云这个术语。

但是,数据湖仓是否意味着数据仓库的终结?数据湖仓是?个新的、开放的数据管理架构,它将数据湖的灵活性、成本

效益和规模与数据仓库的数据管理和ACID交易结合起来,使所有数据的商业智能和ML成为可能。

那是在2012年,专家们在 Strata-Hadoop World声称数据湖将杀死数据仓库(创业公司当时拒绝了SQL并使?了

Hadoop--SQL在当时有点逊?,其原因在今天看来是荒谬的)。这种死亡从未发?过。

2022年,较新的概念与云计算和融合?作负载的技术创新相搭配,是否会废?数据仓库?

时间会证明?切,但这个领域正在升温,我们预计2022年将有更多的公开对决。该领域的其他初创企业,如Firebolt

DremioClickhouse最近都进?了?量融资,将估值推?10亿美元以上。

数据存储和仓库的演变

正如阿?-?德西所?,这不会是?个赢家通吃的市场。

\"我认为Snowflake将?常成功,我认为Databricks将?常成功......你还会看到其他的顶级公司出现,我肯定,在未来三

到四年内。这只是?个巨?的市场,很多?专注于追求它是有道理的。\"

根据 Bill Inmon他?直被认为是数据仓库之?,数据湖库提供了?个类似于数据仓库市场早期的机会。数据湖库可以

\"将数据湖的数据科学重点与数据仓库的分析能?相结合。\"

更多?货,欢迎关注“Java指南者公众号

数据仓库VS数据湖VS数据湖馆 by Striim

数据湖仓与数据仓库(与数据湖)仍然是?个正在进?的辩论。数据架构的选择最终?然应取决于团队所处理的数据类

型、数据来源以及利益相关者将如何使?这些数据。

随着2022年数据仓库与数据湖仓的争论加剧,重要的是要把炒作和营销术语与现实分开。

03

实时计算和运营分析

正如Matt Turck在他的 MAD Landscape 2021 analysis,感觉实时性?直是?个技术范式,?直是刚要爆发的。当我们

进?2022年时,我们听到的权衡似乎还是在成本和复杂性??。如果?个公司正在建??个云数据仓库,并且需要?即

产?4-6周的影响,那么总体概念似乎仍然是,这是?个实时流管线与批处理管线相?。或者说,如果公司处于数据旅

程的开始阶段,那就是纯粹的矫枉过正。

Validio,我们预计随着实时领域技术的不断成熟和云主机的不断发展,这种观念将在未来?年内发?改变。许多使?

案例,如欺诈检测和动态定价,如果不进?实时处理,就很难获得价值。

随着云服务提供商不断改进其流媒体?具,以数据为主导的组织正朝着建??规模流媒体平台的?向发展。这也是Ali

Ghodsi所暗?的?个概念。

\"如果你没有?个实时的流处理系统,你必须处理这样的事情,好吧,那么数据每天都会到达。我要把它放在这?。我

要把它加到那边去。那么,我如何进?核对?如果有些数据晚了怎么办?我需要连接两个表,但那个表不在这?。所

以,也许我会等?下,然后再重新运??次。\" - Ali Ghodsi on a16z

在过去的10年?,Apache Kafka?直是?个坚实的流引擎。进?2022年,我们看到公司越来越多地转向云托管的引

擎,如亚马逊的Kinesis和?歌的Pub/Sub

僵?仪表盘是?个?常具体的例?,说明为什么这种流/实时运动正在逐渐发?。在现代数据驱动的公司中,它们似乎成

了?个?常真实的东西,Ananath Packkildurai(《数据?程周刊》的创始?)在以下?章中讨论了这个问题 this

Twitter thread.

对于许多公司来说,运营分析是开始他们?向实时/近实时分析的?个良好起点。正如Kleiner Perkins的合伙?Bucky

Moore在他最近的?章中讨论的那样 blog post:

\"云数据仓库的设计是为了?持商业智能?例,这相当于扫描整个表并汇总结果的?型查询。这是对历史数据分析的理

想选择,但对于 \"现在发?了什么?\"这类查询正变得越来越流?,以推动实时决策。这就是运营分析指的是什么。这?

?的例?包括应?内的个性化、流失预测、库存预测和欺诈检测。相对于商业智能,运营分析查询将许多不同的数据源

连接在?起,需要实时数据摄取和查询性能,并且必须能够同时处理许多查询。\"

由于 noted by McKinsey back in 2020,实时数据信息传递和流媒体管道的成本已经?幅下降,为主流使?铺平了道

路。麦肯锡在?篇?章中进?步预测 recent article2025年,数据的?成、处理、分析和终端?户的可视化将被新的和

更普遍的技术??改变,例如?于实时分析的Kappalambda架构,导致更快和更强?的洞察?。他们认为,随着云计

算成本的不断下降和更多强?的 \"内存 \"数据?具的上线(如RedisMemcached),即使是最复杂的?级分析也能合

理地提供给所有组织。

不能客观地说,在我们进?2022年后,流数据是否?批处理数据变得更加关键--因为这在不同的公司和?例之间存在巨

?的差异。例如,Chris Riccomini设计了?个数据管道进展的层次结构。他认为,数据驱动的组织在他们的管道成熟度

中会经历这样的演变序列。

数据管道成熟度的六个阶段 Chris Riccomini

我们不做任何预测,上述管道的成熟度进展是否会变得更加普遍--有?认为实时流管道?乎都是矫枉过正的。

然?,我们看到,越来越多的公司正在投资实时基础设施,因为他们正在从数据驱动(根据历史数据做出决策)变成数

据主导(根据实时和历史数据做出决策)。这?趋势的良好指标是Confluent的爆炸性IPO和新产品,如Clickhouse

MaterializeApache Hudi,它们在数据湖上提供实时功能。

数据的及时性,例如从这种基于批量的周期性架构到更实时的架构,将成为?个越来越重要的竞争要素,因为每?个现

代公司都在成为?个数据公司。我们预计这将在2022年进?步加速。

04

云市场的崛起

在数据基础设施领域,PLG(产品主导型增长)趋势已经持续了?年,因为基于使?的定价、开源和软件的可负担性已

经将购买决策推向了终端?户。然?,与传统的销售主导的市场模式相?,从商业模式和产品的?度来看,产品主导的

增长和基于使?的定价在软件??的实施和执?可能很复杂。通过AWSGCPAzure的云市场平台正在成为企业向未

来数字销售发展的最佳第?步。

随着开发者?具公司--包括现代数据栈中的初创公司--部署不同级别的PLG动议(产品的免费/免费/免费试?版)或多或

少成为?种规范,我们也在经历云市场的崛起,成为现代数据团队采?新技术渠道的?选。这主要是由于它们所提供的

类似于消费者的?摩擦购买体验(想想苹果应?商店或?歌游戏商店),?且数据团队可以利?他们已经承诺的云供应

商的?出,通过云市场采?新技术。

对于全球领先的云计算公司来说,云市场现在是进?市场的必要条件,?不是选择。这些数字--包括已实现的和预测的--

说明了原因。

?超过45% Forbes The Cloud 100公司积极使?云市场作为其软件的分销渠道。

?

?仅在2021年,独?软件供应商通过云市场平台 产?了超过30亿美元的收?,根据 Bessemer predictions. 贝瑟默公

司预计,在未来?年,这?数字将以10的倍数增长。

?Forrester had projected2023年,全球13万亿美元的B2B?出中有17%将通过电?商务和市场平台流动 - 但这个数

字可能在2021年就已经达到了。

?A 2020 Tackle survey发现,70%的软件供应商表?,由于COVID-19的出现,他们已经增加了对市场平台的关注和

投资,将其作为进?市场的渠道。

云市场的爆炸性增长主要源于它们为现代数据团队和数据基础设施技术供应商提供的相互优势。

云市场的双赢

最近发表的?项研究 by Gartner预测,到2025年,近80%的销售互动将通过数字渠道进?。通过GCPAWSAzure

市场分发技术正成为现代数据团队的?然??。现代数据栈公司,如 Astronomer and Fivetran已经通过成为云市场的早

期采?者?获得了成功。其他早期采?云市场的公司,如CrowdStrike,已经看到销售周期时间减少了近50%

购买?为已经彻底改变,现代数据团队在他们的商业?活中期待着消费者级别的体验。他们希望以?种?常低调、技术

领先的?式来发现、试?、甚?购买新的数据基础设施技术。云市场正在成为这些团队探索新技术的接?点,就像苹果

应?商店和?歌游戏商店成为我们所有?探索新的?常服务和娱乐的接?点。

提供现代数据基础设施?具的初创企业可以从我们的消费者?活中学习到明显的模式和经验,以消除摩擦,更有效地扩

?销售,并帮助数据团队更快地获得价值。

我们预计,在2022年,云市场将成为现代数据团队采?现代数据栈技术的?选?式。由于云和新基础设施的爆炸性增

长,围绕现代数据栈的概念已经出现了很多,因此,云市场将成为?然的切?点,这让?感觉很合理。

05

数据栈术语的统?

看到现代数据栈背景下的数据质量空间从2020年的?众类别到过去18个?内完全爆发,2021年共有2亿美元的资?流?

该空间,这是?常不可思议的。甚?G2在他们最近的\"What Is Happening in the Data Ecosystem in 2022\"的?章中指

出,2022年将是数据质量的天下,他们在2021年看到数据质量类别的流量急剧增加,这是?个不寻常的趋势。

在现代云数据基础设施的背景下,数据质量类别的崛起是?常有意义的。数据质量不仅是任何现代数据驱动型公司的基

础(?论它是普通的报告、商业智能、运营分析还是?级机器学习),根据 2022 State of Data Engineering Survey

据质量和验证是调查对象(主要是数据?程师)提到的第??挑战。27%的调查对象不确定他们的组织使?什么(如果

有的话)数据质量解决?案。对于DataOps成熟度低的组织,这?数字跃升?39%

然?,数据质量技术的爆炸性增长也带来了?些负?的影响。随着现代数据质量?具的快速爆炸性增长,我们也可以看

到该领域的术语有很多不?致和重叠的?法。正如作者所指出的 Bessemer在数据质量领域的参与者已经创造了?些借

?应?性能监控的术语,如 \"数据停机\"(对 \"应?停机 \"的戏称)和 \"数据可靠性?程\"(对 \"站点可靠性?程 \"的戏

称)。

现在有?数种?法来描述重要但有点庞杂的过程,可以被定义为数据质量验证和监测。我们看到诸如数据可观察性、数

据可靠性、数据可靠性?程、数据质量监控、数据的Datadog、实时数据质量监控、数据停机、未知数据故障、?声数

据故障等术语被交替使?且不?致。

在?前的状态下,现代数据栈中的?多数数据质量?具都集中在监控管道元数据或对仓库中的静态数据进?SQL查询--

有些?具与不同层次的数据脉络或根本原因分析相联系。

?个现在被定义为数据可观察性?具的软件可能只关注数据线,或者只关注监测管道元数据。?个提供实时数据质量警

报但不?持监测实时流管道的?具,现在可能被定义为?个实时数据质量监测?具。?个只对仓库中的数据进?SQL

询的?具可能被定义为端到端的数据可靠性?具,??个监控管道元数据的?具可能被定义为数据质量监控?具(反之

亦然)。这个名单还在继续。现在有很多不?致的地?,导致市场和终端?户的混乱。

2020MAD格局中的数据质量类别与2021年的格局相?,由 Matt Turck

术语的不?致性是超出数据质量范畴,扩展到整个现代数据栈的东西。

?个?业的早期最有?的指标之?是新术语的扩散,?这些术语的使?是不?致的。作为?个具体的例?,当有?说电

?商务平台或CMS平台时,我们?多数?都会想到例如ShopifyWordPress,并对该?具在业务中的功能有?个清晰

的认识。但是,当你听到 \"运营分析\"\"数据湖 \" \"数据可观察性 \"这样的术语时,?个在数据世界?作的?可能会发现

很难说清楚它们的确切含义和/或包含的内容。这往往与以下事实直接相关,即许多术语是由?些公司创造的,它们利?

特定的技术开辟了新的领域,并进?了分类创造。有趣的是,即使是最热门的数据术语,例如 \"现代数据栈\",在数据世

界中也缺乏?个?致的定义--此外,诸如 \"数据? \" \"数据结构 \"等术语也经常被?来描述新的数据架构。

随着实际?户将该技术分层到他们的堆栈并建??例,该?业将最终帮助形成特定?具和架构模式的定义。

2022年,随着现代数据栈和数据质量类别的成熟,我们也希望看到术语使??式的协调和?致。

end

?Flink 从?门到精通 系列?章

?基于 Apache Flink 的实时监控告警系统

?关于数据中台的深度思考与总结(??货)

??志收集Agent,阴暗潮湿的地底世界

公众号(zhisheng)?回复?经、ClickHouse ES FlinkSpring Java Kafka 监控 等关键字可以查看更多关键

字对应的?章。

点个赞+在看,少个 bug

更多推荐

指南者怎么样