作为行业的时代4.0,凭借其预测分析,综合业务规划的承诺,以及增加的业务效率继续升温,大数据是每个人的思想的主题。然而,利用对由各种传感器和设备产生的越来越多的数据产生的潜在价值的潜在价值进行了如此大的讨论,对有效分析数据质量的所有过于必要的前体都有不注意的关注。
在这个领域,古老的格言“垃圾,垃圾出来”仍然至高无上。即使是最先进的机器学习算法,在美联储质量差的数据时也是没用的。
“数据质量就是一切,数据质量解决方案“首先,如果你使用现有数据来训练一个模型,而你没有很好地清理它,你就会得到一个糟糕的模型。即使(您构建的)模型是好的,如果您将坏数据放入其中,您将得到一个坏结果。如果你把这些事情堆积起来,就像瀑布一样,问题很快就会失控。”
那么,如何定义什么是或不是质量数据呢?这是一个具有挑战性的问题,因为答案很大程度上取决于你想要解决的特定问题。一般来说,数据质量可以根据四个主要维度来衡量:准确性、一致性、完整性和及时性。
如果从网络上收集的值具有准确性,则它们正确反映了每个设备产生的信息。例如,如果单个空间内的多个设备全部报告该区域中的环境温度,则数据分析师应期望这些值与彼此相同或在合理的偏差中。一致性类似。当数据一致时,这意味着在类似条件下报告的多个事件不会表现出不可调和的差异。相反,当报告的事件的时间序列中没有实质间隙或从传感器捕获的值时,获得完整性。最后,如果数据具有及时性,则意味着它能够通过各种通信协议和集成级别传输到数据管理平台中的初始创建点,其中它可以快速地与来自其他源的数据同步以便有效地采取行动。
虽然这种指标和标准的旋风可能似乎是令人互向的,但红人说它都可以将其煮沸成两个简单的公理。数据必须是对的,这意味着它准确,一致,完整。它也必须是正确的数据,这不仅需要满足质量技术标准,而且需要与其中一个目标开发预测模型的特定投入范围的特定输入。校准的设备可能会对前者的缺点负责,但后者尤为重要,因为它呼吁人类分析师的洞察力和创造力以及他们对进一步上游创建数据的操作技术人员的能力和能力。
从一开始就确保数据质量
Redman确保数据质量的方法与其他方法不同,虽然他承认技术很重要,但他认为这首先是一个管理问题。在他看来,当数据创造者和数据用户之间的沟通变得更加清晰时,不仅收集正确的数据,而且收集正确的数据也会变得成倍地容易。
“你会注意到的一件事是,如果他们自己要使用这些数据,就不会真正创建坏数据,但很多数据是在组织的某个部分第一次创建的,直到它的另一个部分的下游某个地方才被使用。人们愉快地创建数据,然后使用数据的人说,‘哦,这不好,’所以他们必须清理数据,”他说。“他们从来没有想过,也许他们应该弄清楚是谁在创建数据,然后去那里谈谈他们的需求。数据质量的目标应该是完全摆脱清洁业务。”
换句话说,需要做出一个有意识的决定来开发组织中不同成员之间的通信方法,从而可以清楚地描述生成的所有数据的需求。Redman认为这是管理强加的责任,如果有必要,也提供培训。
虽然红军强调通信管道的扭结应该在组织匆忙到更复杂的技术方法之前完全分类,但一旦通过管理层已经解决了强大的工作流程,投资正确的硬件和软件也很重要。
增加数据清洁效率
鉴于数据看门人的工作剧烈,雷德曼的立场并不令人惊讶。根据Anil Datoo,数据管理副总裁艾默生,大约70%的数据集成活动都花了验证,结构化,组织和清洁数据,这是一项统计数据,该数据在2014年纽约时报的大数据中回应。随着这项工作的致力于这项任务data cleaning and very little headway having been made to reduce it over the past half-decade, working to ensure that more data is in tip-top shape from its inception isn’t a bad strategy.
然而,即使这些措施最终能够缓解处理数据的负担,所以庞大的卷也几乎不可能完全绕过清洁,据副总裁兼首席营销官Seeq。此外,在出现新问题之前,通常难以知道需要什么数据。因此,即使在最具组织的管理机制中,增强了排序和清洁大量数据效率的软件工具也可以是一个宝贵的工具。
“这种对话的关键部分是,数据必须适合你的特定分析。重要的一点是确保原始数据以原始形式存储。如果它被总结了——因为有人认为他们知道我想用它做什么,或者它已经根据别人的期望以某种方式被修改或清除了——它可能实际上被毁了,”Risse说。“我可能正是在寻找别人认为应该删除的异常或异常值。其中一个巨大的挑战是,我们往往不知道我们需要什么,直到我们需要它。”
从Risse的角度来看,在从操作的一开始就改善数据质量可能在某些情况下有用,在某些情况下,在其他情况下,过度消毒,即使在最严格的指导中,即使在最严格的指导中,也可能会产生进一步的问题。这就是为什么Seeq的软件旨在帮助用户更快地解析大量数据,以便在管道中不需要汇总或缩减。
用例可以帮助说明Seeq软件的效用。例如,一个采用批量生产的行业,如制药或食品和饮料。通常,如果出现质量问题,厂家会转储整个批处理和投产,而不是试图找出问题的根源,因为分析必要太耗时,他们一直在进行的时候,批处理完成。使用Seeq的软件,这个过程可以加速,这样就可以足够快地做出决定,从而对结果产生影响。
“在我们与之合作的炼油厂的一个例子中,它正在服用两周以获得日常生产的见解,”Risse说。“现在,他们可以在一小时内完成这个决定,每年都会增加产量,同一植物,同一植物和同一个人。”
管理数字转型计划的预期
对于那些寻求追求暴跌的人来说,追求成为一个更具数据娴熟的组织,Redman,Datoo和Risse都会提供有价值的建议。
首先,Datoo建议使用小型目标项目的过渡,而不是立即潜水。
“我们的主要建议是开始并开发一个小的用例。这并不需要昂贵的成本因为在运营环境中有很多机会;所以,如果你能瞄准能在运营上引起共鸣的东西,就会有很好的投资回报,并能引起运营利益相关者的注意,你就做好了准备,”他说。“在此过程中继续度量成功,保持灵活,并期望进行迭代式更改。这些问题没有简单的答案,所以考虑到这一点很重要。”
同样,Redman敦促采用者选择一个特定的问题并坚持下去。他说,组织经常会犯这样的错误:雇佣数据科学家,让他们访问组织的所有信息,然后等着看他们得出什么结论。在雷德曼看来,这种无纪律的做法注定会失败。
管理期望也很重要。虽然在一开始就提高数据质量的同时,可以通过管理焦点和提高数据清洁效率的工具,但是组织不应期望他们的数字转换,以重新投入其业务,过夜,红人士警告。同时,Seeq的用例表明,当使用时,数据见解可以随时间解锁键到真正的变革结果。
最重要的是,数据质量应留在所有数字转型举措的核心。正如厨师的那样只是作为所提供的成分一样好,数据科学家同样受到不良数据的限制。
此外,通过使用先进的软件指向行业数字革命的深远效果,通过管理创新消除劣质数据劣质数据的根本原因,并更有效地解析数据。远离唯一的省份少数电脑分析师,大数据触及各个部门的行业,从运营到管理。同时适应这个新的范式并没有没有挑战,希望在这个不确定性中茁壮成长的企业必须准备做到这一点。