跳转到主要内容

DataOps(数据运营)将DevOps团队与数据工程师和数据科学家聚集在一起,为数据驱动企业提供工具、流程和技能。

什么是DataOps?

DataOps(数据操作)是一种用于开发和交付分析的敏捷、面向过程的方法。它将DevOps团队与数据工程师和数据科学家聚集在一起,提供支持以数据为中心的企业的工具、流程和组织结构。研究公司Gartner进一步将该方法描述为一种专注于“改善整个组织中数据管理者和数据消费者之间数据流的通信、集成和自动化”的方法

DataOps目标

据Dataversity介绍,DataOps的目标是基于数据和数据分析简化应用程序的设计、开发和维护。它试图改进数据管理和产品创建的方式,并将这些改进与业务目标相协调。根据Gartner的说法,DataOps还旨在“通过创建数据、数据模型和相关工件的可预测交付和更改管理,更快地实现价值”

DataOps与DevOps

DevOps是一种软件开发方法,通过将开发团队和运营团队合并为负责产品或服务的单个单元,为系统开发生命周期带来持续交付。DataOps通过增加数据专家(数据分析师、数据开发人员、数据工程师和/或数据科学家)来构建这一概念,以专注于数据流的协作开发和整个组织中数据的持续使用。

DataKitchen专门从事DataOps可观测性和自动化软件,它认为DataOps不仅仅是“数据的DevOps”。虽然这两种做法都旨在加速软件(在DataOps的情况下利用分析的软件)的开发,但DataOps必须同时管理数据操作。

DataOps原则

与DevOps一样,DataOps也从敏捷方法论中汲取了灵感。该方法以满足客户为主要目标,重视持续提供分析见解。

根据DataOps宣言,DataOps团队重视工作的分析,通过他们提供的见解来衡量数据分析的性能。DataOps团队也接受变革,并不断了解不断变化的客户需求。他们围绕目标自我组织,并寻求减少“英雄主义”,以支持可持续和可扩展的团队和流程。

DataOps团队还寻求从头到尾协调数据、工具、代码和环境,以提供可重复的结果。此类团队倾向于将分析管道视为类似于精益生产线,并定期反映客户、团队成员和运营统计数据提供的反馈。

DataOps适合的地方

如今,企业越来越多地将机器学习注入到大量产品和服务中,而DataOps是一种旨在支持机器学习端到端需求的方法。

Ted Dunning和Ellen Friedman在其《机器学习物流》一书中写道:“例如,这种风格使数据科学家更有可能获得软件工程的支持,以便在部署期间将模型移交给操作时提供所需的信息。”。

“DataOps方法并不局限于机器学习,”他们补充道。“这种组织方式对任何面向数据的工作都很有用,可以更容易地利用构建全球数据结构所带来的好处。”

他们还指出,DataOps非常适合微服务架构。

实践中的DataOps

Dunning和Friedman表示,为了充分利用DataOps,企业必须发展其数据管理策略,以大规模处理数据,并在实际事件发生时做出响应。

由于DataOps建立在DevOps的基础上,跨“技能协会”(如运营、软件工程、架构和规划、产品管理、数据分析、数据开发和数据工程)的跨职能团队至关重要,而DataOps团队的管理方式应确保开发人员、运营专业人员、,以及数据专家。

邓宁表示,数据科学家也可能被列为DataOps团队的关键成员。他说:“我认为这里最重要的事情是不要固守象牙塔的传统组织,那里的数据科学家与开发团队分离。”。“你可以采取的最重要的一步是将数据科学家真正嵌入到DevOps团队中。当他们住在同一个房间,吃同样的饭,听到同样的抱怨时,他们自然会获得一致。”

但邓宁也注意到,数据科学家可能不需要永久嵌入DataOps团队。

邓宁说:“通常,团队中会有一位数据科学家。”。“他们的能力和敏感度开始减弱。然后团队中的某个人担任了数据工程师和低预算数据科学家的角色。团队中的实际数据科学家随后会继续前进。这是一个不稳定的情况。”

如何组建DataOps团队

大多数基于DevOps的企业已经拥有DataOps团队的核心。一旦他们确定了需要数据密集型开发的项目,他们只需要向团队中添加受过数据培训的人员即可。这个人通常是数据工程师而不是数据科学家。DataKitchen建议组织寻找DataOps工程师,他们专门负责创建和实施流程,以实现数据组织内的团队合作。这些人设计了允许工作从开发流向生产的业务流程,并确保硬件、软件、数据和其他资源按需可用。

许多团队由具有重叠技能集的个人组成,或者根据专业知识,个人可以在一个DataOps团队中担任多个角色。

据Forrester副总裁兼首席分析师Michele Goetz介绍,DataOps团队的一些关键专业领域包括:

  • 数据库
  • 集成
  • 数据到流程编排
  • 数据策略部署
  • 数据和模型集成
  • 数据安全和隐私控制

无论组成如何,DataOps团队必须共享一个共同的目标:他们支持的服务的数据驱动需求。

DataOps角色

据Goetz介绍,DataOps团队成员包括:

  • 支持数据环境和开发最佳实践的数据专家
  • 数据工程师,为BI、分析和业务应用程序提供临时和系统支持
  • 主要数据工程师,他们是开发产品和面向客户的可交付成果的开发人员

DataOps工资

根据PayScale的数据,以下是与DataOps相关的一些最受欢迎的职位名称以及每个职位的平均工资:

  • 分析经理:72K-134K美元
  • 副数据科学家:61K-101K美元
  • 数据分析师:46K至89K美元
  • 数据架构师:81K美元-16.2万美元
  • 数据工程师:6.7万美元-13.4万美元
  • 数据科学家:7万-137万美元
  • 分析总监:8.5万美元-17.7万美元

DataOps工具

以下是一些最流行的DataOps工具:

  • Census::一个专门用于反向ETL的运营分析平台,将数据从真实来源(如数据仓库)同步到CRM、广告平台等一线系统的过程。
  • Databricks Lakehouse平台:统一数据仓库和AI用例的数据管理平台
  • Datafold:用于检测和修复数据质量问题的数据质量平台
  • DataKitchen:一个数据可观察性和自动化平台,协调端到端多工具、多环境数据管道
  • Dbt:用于创建数据管道的数据转换工具
  • Tengu:用于数据和管道管理的DataOps协调平台