跳转到主要内容

在与本地数据仓库进行了斗争之后,航空公司通过将数据迁移到云上,解锁了自助报告和机器学习的功能。

新冠肺炎疫情爆发后,航空业面临着重大变化和不确定性。2020年,捷蓝航空公司(JetBlue Airways)决定其竞争优势取决于IT,尤其是对其数据堆栈进行改造,以整合数据运营、运营客户反馈、减少天气和延误的下游影响,并确保飞机安全。

JetBlue数据工程总经理Ashley Van Name表示:“早在2020年,JetBlue的数据团队就开始了对公司数据堆栈的多年转型。”。“目标是能够接近实时地访问更多数据,确保所有关键系统的数据都集成在一个地方,并消除过去阻碍机组人员构建先进分析产品的任何计算和存储限制。”

在此之前,捷蓝航空的数据运营集中在一个本地数据仓库上,该仓库为少数关键系统存储信息。根据数据集,数据每天或每小时更新一次,但这仍然会导致数据延迟问题。

“这是严重的限制,”Van Name说。“这意味着机组人员无法使用实时数据构建自助报告产品。所有作战报告都需要建立在作战数据存储层之上,该层受到高度保护,可用于报告的计算量有限。”

数据可用性和查询性能也是问题。本地数据仓库是一个具有预先配置的存储和计算量的物理系统,这意味着查询不断地与数据存储竞争资源。

Van Name表示:“鉴于我们无法阻止分析师查询他们所需的数据,我们无法在仓库中集成我们可能需要的更多数据集-实际上,在我们的情况下,‘计算’需求超过了存储。”。

该系统还被限制在任何一次运行32个并发查询,这每天都会创建一个查询队列,从而延长了查询运行时间。

答案是什么?位于纽约长岛市的航空公司决定将目光投向云端。

近实时数据引擎

捷蓝航空与数据云专家Snowflake合作,首先将公司的数据从遗留的本地系统转移到Snowflak数据云,Van Name表示,这大大缓解了公司许多最紧迫的问题。

 

Jet Blue的数据团队随后专注于整合分析师以前无法在内部系统中访问的关键数据集。该团队向分析师提供了50多条近乎实时的数据,涵盖了航空公司的航班运行系统、机组人员跟踪系统、预订系统、通知管理器、值机系统等。从源系统收到这些提要的数据后,一分钟内就可以在Snowflake中获得。

Van Name表示:“我们有效地将Snowflake中的数据产品增长到了内部仓库中可用数据的500%以上。”。

捷蓝航空的数据转型之旅才刚刚开始。Van Name表示,将数据移动到云端只是难题的一部分:下一个挑战是确保分析师能够轻松地与平台中可用的数据进行交互。

她说:“到目前为止,我们已经做了大量工作来清理、组织和标准化我们的数据产品,但仍有进展。”。“我们坚信,一旦数据被整合和清理,数据团队的重点需要转向数据管理。”

Van Name表示,数据管理对于确保所有级别的分析师都能与公司的数据进行交互至关重要。他补充道,构建单一、易于使用的“事实”表,以回答有关数据集的常见问题,将消除JetBlue传统上在新分析师开始与数据进行交互时遇到的进入障碍。

除了近乎实时的报告外,数据还可以作为机器学习模型的输入。

捷蓝航空数据科学与分析总经理赛·普拉丹·拉武鲁(Sai Pradhan Ravuru)表示:“除了数据管理,我们已经开始加快我们的内部数据科学计划。”。“在过去一年半的时间里,一个新的数据科学团队已经成立,并一直在使用Snowflake中的数据来构建机器学习算法,这些算法可以预测我们的运营状况,也可以让我们更多地了解客户及其偏好。”

Ravuru表示,数据科学团队目前正在开发一种大型人工智能产品,以协调捷蓝航空的效率。

Ravuru表示:“该产品由数据工程和数据科学团队紧密合作建立的二级数据模型提供支持,以更新ML产品中使用的功能存储。”。“ML产品的几个分支生态系统构成了一个长期战略的基础,为JetBlue的每个团队提供预测性见解。”

导航更改

近两年前,捷蓝航空转向了雪花航空。Van Name表示,在过去的一年中,该平台的内部采用率增加了近75%,以每月活跃用户为衡量标准。用户开发的自助服务报告数量也增加了20%以上。

 

Ravuru表示,他的团队已经在生产中部署了两种机器学习模型,涉及动态定价和客户个性化。快速原型和迭代使团队能够在每次部署时更快地操作数据模型和ML产品。

Ravuru表示:“此外,不考虑查询延迟(即每秒查询次数)的精心构建的数据模型为数据科学家、AI和ML工程师开发的ML API提供了灵活的在线功能存储解决方案。”。“因此,根据需要,数据以毫秒或批处理的方式提供,以便战略性地利用实时流媒体管道。”

虽然每家公司都有自己独特的挑战,但Van Name认为,采用以数据为中心的思维方式是支持更大规模变革的主要基石。她表示,确保领导层了解当前的挑战和市场上有助于缓解这些挑战的技术选项尤为重要。

Van Name说:“有时候,深入了解大型组织中存在的所有数据问题是一项挑战。”。“在捷蓝航空,我们每年都会对数据用户进行一次调查,以在官方论坛上获得他们的反馈。我们利用这些反馈来制定我们的战略,并更好地了解我们在哪些方面做得很好,以及我们在哪些地方有改进的机会。接受反馈很容易;付诸行动才是真正的改变。”

Van Name还指出,与整个组织中专注于数据的领导者直接合作至关重要。

她说:“你的数据堆栈只会给用户带来价值。”。“作为一名技术数据领导者,您可以花时间为您的组织策划最佳、最完整、最准确的信息集,但如果没有人使用它来做出决策或保持信息,这实际上毫无价值。与能够利用数据的团队领导建立关系将有助于实现其全部价值。”