数据。无论你谈论的是工业物联网、工业4.0、智能制造还是数字制造,数据都是核心。如果没有历史和持续的数据收集来源,这些工业举措都不会发生。好消息是,作为制造商或处理器,您承载了大量的数据。很多情况下是几十年的数据。
但是你要怎么处理它呢?会有摩擦。说到从你拥有的所有数据中获得见解,大多数制造商可能会觉得像柯勒律治(Coleridge)的古代水手——水,到处都是水,但没有一滴可以喝。
这是一个非常关键的问题,因为要进行好的数据分析当今市场上有多种软件可供选择数据质量解决方案公司总裁Thomas C. Redman在他的报告中说:“历史数据必须满足非常广泛和高质量的标准。哈佛商业评论文章“如果你的数据是坏的,你的机器学习工具是无用的。”
在他的文章中,Redman说:“(质量差的)原因包括:数据创造者不理解预期的结果,校准不良的测量设备,过于复杂的过程,以及人为错误。”为了弥补这一点,数据科学家必须清理数据,但这样做既不能检测也不能纠正所有的错误。即使数据清理工作做得很好,“它仍然可能被不良数据破坏。”
雷德曼说,因此,所有这些只是为机器学习或分析准备数据的努力,往往“颠覆了预期的生产率提高”。
今年春天在旧金山参加OSIsoft用户大会时,我与过程数据分析软件供应商Seeq的首席营销官迈克尔•里斯(Michael Risse)进行了交谈。Seeq标榜自己的数据分析技术是“直观的”和“可视化的”,“允许用户搜索他们的数据、添加上下文、清理、建模、找到模式、建立边界、监控资产、实时协作,并与时间序列数据进行前所未有的交互。”
考虑到Redman的观点,我问Risse,根据他在批量和连续流程行业的用户经验,用户要开始收获数据分析的商业利益,最常见的数据管理问题是什么?
Risse说:“数据管理——我在这里说得很具体——不是问题所在。”“例如,我们的许多客户都有OSIsoft PI,他们的数据得到了很好的管理、保护和收集。行业中充斥着管理良好的数据,从管理良好的数据中获得洞见才是问题所在。”
在会议结束后的讨论中,我想从Risse中学到Seeq如何帮助用户准备数据进行分析。考虑到Redman提出的问题,在执行任何有用的分析之前,这是必须跨越的关键桥梁,不仅是历史数据,而且是所有向前移动的数据的聚合。
Risse说:“准备数据需要几个步骤。“准备过程中的每一步都是Seeq的一个功能。”根据Risse的说法,这些步骤和特点如下:
- 连接到数据源。Risse说:“这可能比听起来更难,因为它通常需要处理不同的数据类型和专有接口。”(参见上面的Multi-Historian图表,以了解Seeq如何整合多个历史学家数据来源。)
- 正确处理时间序列数据。Risse在这里特别提到了“调整来自不同来源的时间序列数据,不同采样率的数据,转换或管理度量单位(公制、英语、/秒或/小时等)”的问题。
- 数据清理。Risse说,为了获得正确的数据,必须消除异常值,必须修复数据中的空白,如果数据有噪声,可能需要进行“数据平滑”。“这里面有很多东西,”他说,同时他澄清说,在这些数据清理过程中,Seeq不会改变源数据。
- 软传感器创建。Risse说:“在进行数据分析之前,可能需要进行计算来创建‘软传感器’。”软测量是指将几个测量值处理在一起,用于计算需要测量的新量的软件。举个例子,Risse说有三种信号可以用来计算一个结果,用于分析,比如平均值、导数、加法、转换等。
- 其他步骤。考虑到里德曼的上述观点,正确地准备用于分析的数据不能完全通过分数来解决——无论多么关键——这可以用一只手来数。Risse表示,适当准备数据的其他步骤可能是必要的,包括“与同行的实时协作,记录准备工作,或将数据集中在特定的资产模式或其他标准,以便分析以特定问题为中心,只使用该部分数据。”作为Seeq如何关注特定问题或部分数据的一个例子,该软件的“胶囊”是一个功能,根据该公司的说法,“代表了一段确定的时间,或一段感兴趣的时间”。
尽管Seeq声称它使数据分析过程对用户来说相对简单,但对用户来说,最难的部分可能是评估市场上所有的供应商。即使是Risse也承认“在这个行业中有很多数据分析解决方案和不可思议的创新正在发生。”这就解释了为什么Seeq专注于处理时间序列/过程数据。“Seeq的应用范围很窄——只适用于工艺数据,”Risse说。“这使得它很容易使用。相比之下,用于IT数据源的通用工具通常可以处理其他类型的数据(例如,流程、金融、零售等),但不能处理时间序列数据。”