跳转到主要内容

可靠的数据管理策略可以为任何寻求利用数据价值的企业带来回报。 尽管如此,数据驱动决策的道路仍然充满挑战和难题。

有人称数据为新油。 其他人称之为新黄金。 哲学家和经济学家可能会争论这个比喻的质量,但毫无疑问,组织和分析数据对于任何希望兑现数据驱动决策承诺的企业来说都是一项至关重要的努力。

为此,可靠的数据管理策略是关键。 包括数据治理、数据运营、数据仓库、数据工程、数据分析、数据科学等,数据管理如果做得好,可以为每个行业的企业提供竞争优势。

好消息是,数据管理的许多方面都得到了很好的理解,并且基于几十年来发展的合理原则。例如,它们可能不容易应用或难以理解,但多亏了基准科学家和数学家等,公司现在拥​​有一系列用于分析数据和得出结论的后勤框架。更重要的是,我们还有统计模型,可以绘制误差线来描述我们的分析范围。

但是,尽管数据科学和推动它的各种学科的研究产生了所有好处,但有时我们仍然摸不着头脑。企业经常遇到该领域的限制。一些悖论与收集和组织如此多数据的实际挑战有关。其他的则是哲学的,测试我们推理抽象品质的能力。然后,围绕首先收集的大量数据的隐私问题日益增加。

以下是使数据管理对众多企业构成挑战的一些不为人知的秘密。

非结构化数据难以分析


存储在企业档案中的大部分数据根本没有太多结构。我的一个朋友渴望使用人工智能来搜索他银行呼叫中心工作人员记录的文字记录。这些句子可能包含有助于改善银行贷款和服务的见解。也许。但是这些笔记是由数百名不同的人记录的,他们对如何写下给定的电话有不同的想法。此外,工作人员具有不同的写作风格和能力。有些根本没有写太多。有些人写下太多关于他们给定电话的信息。文本本身并没有太多的结构,但是当你有一堆数十年或数千名员工写的文本时,那么任何结构都可能更弱。

即使是结构化数据也常常是非结构化的


优秀的科学家和数据库管理员通过指定每个字段的类型和结构来指导数据库。有时,以更多结构的名义,它们将给定字段中的值限制为特定范围内的整数或预定义的选择。即便如此,填写数据库存储的表格的人还是想方设法增加皱纹和故障。有时字段为空。其他人输入破折号或首字母“n.a.”当他们认为某个问题不适用时。人们甚至年复一年、日复一日地拼写自己的名字,甚至在同一个表格上逐行拼写。优秀的开发人员可以通过验证发现其中一些问题。优秀的数据科学家还可以通过清理来减少这种不确定性。但令人抓狂的是,即使是最结构化的表格也有可疑条目——这些可疑条目可能会在分析中引入未知数甚至错误。

数据模式要么太严格要么太松


无论数据团队如何努力阐明模式约束,用于定义各种数据字段中值的最终模式要么太严格,要么太松。如果数据团队添加了严格的约束,用户会抱怨他们的答案在有限的可接受值列表中找不到。如果架构过于宽松,用户可以添加几乎没有一致性的奇怪值。几乎不可能正确调整模式。

数据法非常严格


关于隐私和数据保护的法律很强大,而且只会越来越强大。在 GDPR、HIPPA 等十几个法规之间,收集数据可能非常困难,而且将其搁置等待黑客入侵更加危险。在许多情况下,更容易花费律师的钱比程序员或数据科学家的钱多。这些令人头疼的问题就是为什么一些公司会在处理完数据后立即将其处理掉。

数据清洗成本巨大


许多数据科学家会确认,90% 的工作只是收集数据,将其以一致的形式呈现,并处理无穷无尽的漏洞或错误。拥有数据的人总是会说,“一切都在 CSV 中,可以使用了。”但他们没有提到空白字段或错误描述。花 10 倍的时间清理用于数据科学项目的数据,这比在 R 或 Python 中启动例程以实际执行统计分析要容易得多。

用户越来越怀疑您的数据做法


最终用户和客户对公司的数据管理实践越来越怀疑,一些人工智能算法及其使用只会加剧恐惧,让许多人对捕获他们一举一动的数据感到非常不安。这些担忧正在助长监管,并经常使公司甚至善意的数据科学家陷入公共关系的反击。不仅如此,人们还故意用虚假值或错误答案干扰数据收集。有时一半的工作是与恶意合作伙伴和客户打交道。

整合外部数据可以获得回报 - 并带来灾难


公司拥有所收集数据的所有权是一回事。 IT 部门和数据科学家对此有控制权。但越来越激进的公司正在研究如何将他们的本土信息与第三方数据以及互联网上漂浮的海量个性化信息整合起来。一些工具公开承诺会收集每个客户的数据,以便在每次购买时建立个性化档案。是的,他们使用与追踪恐怖分子的间谍机构相同的词来跟踪您的快餐购买和信用评分。难怪人们会担心和恐慌吗?

监管机构正在打击数据使用


没有人知道聪明的数据分析何时越界,但一旦越界,监管机构就会出现。在加拿大最近的一个例子中,政府探索了一些甜甜圈店如何跟踪也在竞争对手那里购物的顾客。最近的一份新闻稿宣布,“调查发现蒂姆霍顿斯与一家美国第三方定位服务供应商的合同包含的语言非常模糊和宽容,以至于允许该公司为自己的目的出售‘去识别化’的定位数据。 。”为了什么?卖更多的甜甜圈?监管机构越来越关注涉及个人信息的任何事情。

您的数据方案可能不值得


我们想象一个出色的算法可以让一切变得更加高效和有利可图。有时这样的算法实际上是可能的,但价格也可能太高。例如,消费者——甚至公司——越来越多地质疑来自精心设计的数据管理方案的定向营销的价值。有些人指出我们经常看到我们已经购买的东西的广告的方式,因为广告跟踪器还没有发现我们不再在市场上。同样的命运经常等待其他聪明的计划。有时,严格的数据分析会确定表现最差的工厂,但这并不重要,因为该公司签署了一份为期 30 年的大楼租约。公司需要做好准备,因为所有数据科学的天才可能会产生一个不可接受的答案。

最后,数据决策通常只是判断调用


数字可以提供足够的精度,但人类如何解释它们往往是最重要的。在所有的数据分析和人工智能魔法之后,大多数算法都需要决定某个值是超过还是低于阈值。有时科学家希望 p 值低于 0.05。有时,警察会为超速 20% 的汽车开出罚单。这些阈值通常只是任意值。对于可以应用于数据的所有科学和数学,许多“数据驱动”流程中的灰色区域比我们想相信的要多,尽管公司可能拥有所有资源,但决策取决于直觉投入其数据管理实践。

数据存储成本呈爆炸式增长


是的,磁盘驱动器越来越胖,每 TB 的价格不断下降,但程序员收集比特的速度超过了价格的下降速度。来自物联网 (IoT) 的设备不断上传数据,用户希望永远浏览这些字节的丰富集合。与此同时,合规官员和监管机构不断要求提供越来越多的数据,以防将来进行审计。如果有人真的看过其中的一些片段,那将是一回事,但我们一天只有这么多时间。实际再次访问的数据百分比越来越低。然而,存储扩展包的价格一直在上涨。

本文: