如果您的公司正在参与成熟的智能制造、工业4.0或其他数字转型计划,您可能会遇到“数据湖”这个术语。数据湖本质上是一个存储从操作中收集的所有数据的地方。在数据湖中,存储在那里的数据可以是结构化的或非结构化的。将数据存储在数据湖中不需要任何事先处理。
由于所有类型的数据都可以存储在数据湖中,这些数据存储站点具有很高的潜力,可以为您可能认为不重要的问题提供指导。根据Amazon Web Services的说法,将不同的数据类型存储在一个中央存储库中意味着您可以应用多种类型的分析,如SQL查询、大数据分析、全文搜索、实时分析和机器学习,以发现新的见解。
但是,就像你家里的垃圾抽屉是用来存放那些在其他地方放不下的必需品一样,它很容易成为一个存放你应该已经扔掉的东西的万能仓库。以类似的方式,数据湖也可能变成数据沼泽。
的首席架构师Niki Driessen表示,当用户需要特殊的开发或技术技能来访问和使用数据时,数据湖也可能变成数据沼泽TrendMiner该公司是为加工工业提供数据分析技术的供应商。”目前,数据湖对捕获和存储大量传感器生成的时间序列数据的流程行业越来越重要。”为了让数据湖对时间序列数据起作用,重要的是要明白,(这类)数据不能只是为了提取其价值而被扔进数据湖。”
为了避免让你的数据湖变成模糊时间序列数据价值的数据沼泽,Driessen建议采取以下步骤:
提供所需的元数据。Driessen表示:“目前还没有标准的数据湖工具或单一平台能够神奇地解决数据湖问题,如数据映射和关联。”“为了简化数据摄取(用于时间序列数据的最终分析),组织必须提供所需的元数据——包括数据谱系、数据结构、数据年龄和其他提供将数据链接在一起的公共属性或属性的元数据。”
将分析与数据湖连接起来.Driessen在上面提到,虽然没有单一的标准可以解决数据湖问题,但来自不同供应商的数据存储包有一些共同的方面可以提供帮助。其中之一是查询抽象层。Driessen指出:“这是组织数据湖中的一个工具或组件,允许对数据编写标准的SQL语言查询。”“这也意味着任何支持标准ODBC或JDBC连接的工具都可以用于连接到数据湖。”
数据湖的性能。由于数据湖通常使用具有巨大存储容量的廉价块存储,因此无法保证对存储数据的快速访问。当使用高级工业分析时,这是一个问题,因为用户希望数据出现在他们需要的地方,并能够尽可能快地访问它。Driessen表示,如果一个组织的所有数据“都放在数据湖的一个巨大文件中,这种结构对提取数据来说效率非常低,”这可能会带来问题。好消息是,使用柱状文件格式可以纠正这些问题,这种格式允许用户读取仅在特定情况下需要的数据列。“因为不需要读取整个文件,所以加载的数据更少,从而加快了响应时间,”他补充道。
数据分区。Driessen推荐的另一个提高数据湖性能的实践是分区。在这里,数据按键属性、时间或两者的组合排列在类似文件夹的结构中。Driessen表示,这种做法将所有可用数据分割成更小的文件,允许用户深入到特定的数据集,而不必传输太多的数据。这意味着处理数据或查询数据所需的时间更少。
学习如何了解工业分析市场. |