跳转到主要内容

查询加速器(如数据湖屋)将数据仓库和数据湖整合到一个单一的洞察系统中,使企业能够以降低的成本加速分析并最大化数据价值。

在新冠肺炎大流行高峰时期,需要接种6500万剂疫苗,沃尔格林制药更新和医疗保健平台技术副总裁路易吉·瓜达格诺(Luigi Guadagno)需要知道将疫苗送往何处。为了找到答案,他查询了沃尔格林的数据湖屋,它是在微软Azure上用数据桥技术实现的。

“我们利用数据湖屋来了解这一时刻,”他说。对瓜达诺而言,从技术上讲,将疫苗供应与患者需求相匹配的必要性来得正是时候。这家庞大的制药连锁企业已经建立了自己的数据湖屋,以应对这些挑战,正如Guadagno所说,“在合适的地方为合适的患者提供合适的产品。”

此前,Walgreens曾试图利用其数据湖完成这项任务,但面临两个重大障碍:成本和时间。许多组织都知道这些挑战,因为它们试图从大量数据中获取分析知识。其结果是,企业如何呈现洞察的一个新的范式转变,即企业依赖于一种新的技术类别,这种技术旨在帮助企业最大化其数据的价值。

进入数据湖屋

传统上,组织将维护两个系统作为其数据战略的一部分:一个记录系统,用于运行业务;另一个是洞察系统,如数据仓库,用于收集业务智能(BI)。随着大数据的出现,第二个洞察系统——数据湖似乎为人工智能和机器学习(AI/ML)洞察服务。然而,许多组织发现这种依赖两个独立的洞察系统的范式是站不住脚的。

数据仓库需要一个耗时的提取、转换和加载(ETL)过程,将数据从记录系统移动到数据仓库,然后对数据进行规范化、查询并获得答案。同时,非结构化数据将被转储到数据湖中,由熟练的数据科学家使用Python、Apache Spark和TensorFlow等工具进行分析。

在瓜达格诺的领导下,位于伊利诺伊州迪尔菲尔德的沃尔格林将其洞察系统整合到一个数据湖中。他并不孤单。越来越多的公司发现,Lakehouse(属于通常称为查询加速器的产品类别)正在满足一个关键需求。

Gartner副总裁兼分析师亚当·伦塔尔(Adam Ronthal)表示:“数据湖屋弥补了一些数据湖的失败。这就是我们如何做到的。人们无法从湖中获得价值。”。在Databricks Delta Lake lakehouse的情况下,数据仓库中的结构化数据通常会添加到数据湖中。为此,lakehouse增加了优化层,使数据更广泛地用于收集见解。

根据Gartner的分析查询加速器市场指南,Databricks Delta Lake lakehouse只是越来越拥挤的市场中的一个入口,其中包括雪花、Starburst、Dremio、GridGain、DataRobot等供应商,可能还有十几家其他供应商。

私募股权公司Moonfare正在从AWS上基于PostgreSQL的数据仓库过渡到AWS上用于商业智能和预测分析的Dremio数据湖。2022年秋季实施后,业务用户将能够在AWS S3中的数据之上执行自助服务分析。查询将包括哪些营销活动最适合哪些客户,哪些基金经理表现最佳。数据湖屋也将有助于防止欺诈。

Moonfare的数据工程师Angelo Slawik说:“您可以直观地查询数据湖中的数据。来自数据仓库环境的用户不应该关心数据位于何处。”。“最重要的是,它带走了ETL工作,”他说,并补充道,“使用Dremio,如果数据在S3中,你可以查询你想要的。”

Moonfare在与AWS Athena的概念验证决选中选择了Dremio,这是一种交互式查询服务,支持对S3数据进行SQL查询。根据Slawik的说法,Dremio被证明更有能力,因为它具有非常快的性能和功能强大的用户界面,允许用户直观地跟踪数据沿袭。同样重要的是,德雷米奥基于角色的观点和安全和治理访问控制,这有助于这家总部位于德国柏林的公司遵守GDPR法规。

在总部位于巴黎的法国巴黎银行(BNP Paribas),大型银行的不同团队正在使用分散的数据仓库进行BI。独立承包商Emmanuel Wiesenfeld重新设计了筒仓,以创建一个集中式系统,以便交易员等业务用户可以在“单一真实来源”上运行自己的分析查询

“交易团队希望合作,但数据分散。分析数据的工具也分散,使其成本高昂,难以维护,”Wiesenfeld说。“我们希望集中来自大量数据源的数据,以实现实时态势感知。现在用户可以编写自己的脚本并在数据上运行它们,”他解释说。

Wiesenfeld使用来自GridGain的Apache Ignite技术创建了内存计算架构。Wiesenfeld表示,新方法的关键是从ETL转移到ELT,在执行计算的同时进行转换,以简化整个过程。他说,结果是将延迟时间从几小时减少到几秒。Wiesenfeld已经启动了一个名为Kawa的初创公司,为其他客户,特别是对冲基金提供类似的解决方案。

Starburst采用网格方法,利用StarBurstEnterprise中的开源Trino技术改进分布式数据访问。与将数据移动到中央仓库不同,mesh支持访问,同时允许数据保持原样。Sophia Genetics正在其基于云的生物信息学SaaS分析平台中使用Starburst Enterprise。原因之一:出于监管原因,在特定国家保留敏感的医疗保健数据非常重要。“由于法规遵从性限制,我们无法部署任何从一个中心点访问所有数据的系统,”瑞士Sophia Genetics数据服务总监亚历山大·西霍尔泽(Alexander Seeholzer)在一项星暴案例研究中说。

新的查询加速平台并没有停滞不前。Databricks和Snowflake推出了数据云和数据湖屋,其功能专为零售和医疗保健等特定行业的公司设计。这些举措呼应了hyperscalers Microsoft Azure、谷歌云平台和亚马逊网络服务引入的行业特定云。

湖屋作为最佳实践

Gartner的Ronthal将数据湖向数据湖之家的演变视为一种必然趋势。“我们正朝着数据湖屋成为最佳实践的方向前进,但每个人都在以不同的速度前进,”Ronthal说。“在大多数情况下,湖泊无法满足生产需求。”

尽管DataLakehouse供应商急于将数据仓库纳入其产品中,但Gartner预测数据仓库将持续下去。“分析查询加速器不太可能取代数据仓库,但它们可以通过实现满足业务和技术人员要求的性能,使数据湖的价值显著提高,”该公司关于查询加速器市场的报告总结道。

Forrester Research副总裁兼首席分析师诺埃尔·尤汉纳(Noel Yuhanna)不同意这一观点,他断言数据湖屋确实将取代单独的仓库和湖泊。

“我们确实看到未来的仓库和湖泊将成为一个数据湖屋,在那里一个系统就足够好了,”Yuhanna说。根据Yuhanna的说法,对于具有分布式仓库和湖泊的组织来说,网格架构(如Starburst)将满足需求,因为它使组织能够跨各种数据位置实施联合治理。

Yuhanna表示,无论采用何种方法,公司都在寻求从数据中获得更快的价值。“他们不希望六个月后出现‘客户360’;他们希望下周出现。我们称之为‘快速’数据。一旦数据创建,您就可以对其进行分析和洞察,”他说。

从洞察系统到行动系统

对瓜达格诺来说,疫苗分发是一项引人注目的救命举措,但沃尔格林湖畔小屋(Walgreens lakehouse)也在更平凡但更重要的零售任务中工作,如发送处方提醒和产品优惠券。这些过程将对客户行为的理解与药品和零售库存的可用性结合起来。“它可以变得非常复杂,具有非常个性化的见解,”他说。“它使我们能够以客户为中心。”

对于其他踏上类似旅程的人,Guadagno建议,“尽可能快地将所有数据放入湖中。不要进行任何冗长的数据建模或合理化。最好考虑创造价值。将所有数据放在其中,并通过治理和协作让每个人都能访问。不要在集成和ETL上浪费金钱。”

在沃尔格林,Databricks lakehouse不仅仅是为了提高技术效率。这是其整体业务战略的关键。“我们的使命是创造一种非常个性化的体验。它从零售点开始-你需要什么,什么时候需要。这就是数据的最终目的,”Guadagno说。“没有更多的记录系统和洞察系统。这是一个行动系统。”

本文:https://cioctocdo.com/rise-data-lakehouse-new-era-data-value