快速数据:您想取代那个吗?

大数据的大小已经发展到我们必须以新的方式来展现来描述它。客观性一直在帮助地球科学公司使用快速数据,硬数据,软数据(即所有数据)来获得其石油和天然气勘探客户的重要见解。

AW 86651冰山

冰山的图像经常被用来描述制造商们实际能够处理的数据所占的比例——我们能看到的浮出水面的相对很小的一部分,与海面下的庞然大物相比,根本不算什么。弗雷斯特研究公司的首席分析师诺埃尔·尤汉纳表示,同样,企业数据中只有大约15%被用于获取洞察力。“但如果你能掀开冰山,发现新的洞见呢?””他问道。

客观性是一家专注于工业互联网的信息融合方面的公司(IIOT),致力于将来自多个来源的数据集成到更有意义和洞察力的东西中。在此期间,他们正在寻找在不同类型的数据,使一个制造组织的情报,并在努力获得的,坐在地面以下数据的其他85%弥合之间的差距。

例如,他们正在努力将快速数据 - 从传感器中的实时数据流放入上下文中,通过从其他大数据源给予它的透视来收集宝贵的洞察力。他们整合了他们称之为软数据的东西。硬数据是来自传感器和其他设备的量化数据。相比之下,软数据是来自人类智力的东西,因此受意见和解释以及其他这种不确定性。

自20世纪80年代以来,客观性一直在于自20世纪80年代以来的信息融合方法,首先在CAD / CAM行业中;然后在20世纪90年代帮助新注释的电信公司造成了增加的数据量和复杂性;9/11之后,在9/11之后涉及智力界才能帮助连接点;最后到大型企业,美国IP流量水平比2006年的约50倍。

特别是在国防和石油和天然气行业,出现了一个“不断增长的需求,以更好更快地构建这些融合系统,”金金,在客观产品营销和合作伙伴开发的副总裁。“大多数客户花了数百万美元,需要几个月和多年来,建立这些系统。”

大多数石油和天然气运营有数百万数百万的数据点以使其感。作为Brian Clark,产品副总裁的客观性,指出了一个最近的博客,大型油田可以具有成千上万的井,每阱产生多维日志和曲线最多10个工具。一旦处理源数据,它们产生的数据千兆字节将快速变成Tberabytes。

CGG., a geoscience company that provides geological, geophysical and reservoir analysis for customers primarily in oil and gas exploration, got its first IBM machines in the late 1950s and has been tackling Big Data since 1971, according to Hovey Cox, CGG’s senior vice president of marketing and strategy for geology.

Cox说,CGG有第一个在工业中的3D地震采集。“没有商业系统能够存储或分析该信息,所以我们必须创新,”他说。“从那时起,我们一直在推动该边缘,以确保我们可以创建和安装该系统。”

如果您想谈论大数据,CGG就会了解大数据。想象一下船只,牵引与电线一起挂钩的大栅格。这就是CGG如何在陆地和海上收集数据。Cox说,这是地球上最大的移动基础设施,它每七天收集一部分价值的信息图书馆。“我们与之合作的非常大的数据集,”他补充道。

Cox说,在收集其石油和天然气勘探客户的信息时,这一切都是关于分辨率和速度的。对于其地震调查,CGG从2005年至2009年的40,000个传感器/ km到3600万个传感器/ km。

“我们有很多决议可以做出决定,”Cox说。“从2006年到2014年,我们看到了数据量的十倍增加。”要查看实际术语的意思,请查看上面的图像,显​​示余量成像中的阶跃改变。“我们对确定应该钻井的地方有更多的信心。”

如今,CGG拥有巨大的数据存储,“可以在这个大数据准备数据库中使用,”Cox说。然而,要从所有这些数据中提取必要的信息,需要客观性能够提供的那种平台。“我们不仅需要快速存储和获取数据,还需要确保客户能够非常有效地查看数据,找到他们需要的数据,并寻找可以带来新的附加值的相关性。”

在任何有意义的时间范围内使用快数据汇编的大数据通常昂贵,耗时且效率低下。但客观性已经创建了一个融合平台,这使得它可以急剧构建这些高级融合系统,而且补充说,客观性的策略已经利用开源社区,包括Hadoop和Spark。

该平台利用Hadoop向外扩展,而不是向上扩展。在过去,公司通过增加内存来扩大服务器的规模。现在,他们可以轻松地添加便宜的服务器节点。Kim说:“与传统系统相比,这种技术每字节的成本效益要高出几个数量级。”

CGG需要以大规模,Kim Notes进行数据挖掘,并开始尝试使用Hadoop及其分布式文件结构。“它使他们能够在我们的系统之上运行,”Kim解释道。“对他们来说,Hadoop是透明的。我们做了所有的沉重举重。他们只是在我们的顶部运行他们的地震系统。“

但Hadoop仍然有一些局限性。它适用于世界的谷歌,但“可用于分析工作负载,”金争。“它往往是高度迭代的,所以表现很可怕。”

Kim说,为了让Hadoop真正用于分析,它需要其他组件,比如YARN (Yet Another Resource Negotiator)或Spark。Spark是伯克利开发的一个开源集群计算系统,旨在提高数据分析的速度。它可以将大量使用的数据保存在内存中,因此可以比Hadoop更快地加载数据和查询数据。Kim表示:“Spark将分析工作量降低了2-3个数量级。

随着KIM强调,客观性不是分析公司,而是一个数据管理和融合公司。开源工具已成为关键推动因素。“如果我们必须自己开发整个融合平台,那么它将花费五年和8000万美元的成本,”金说。“但有火花,我们能够以不到一年的成本在不到一年内完成。”

对于像CGG这样需要处理和理解大量数据的公司来说,客观性的平台是有用的。“我们从20世纪70年代初就进入了大数据市场。但就像今天的所有人一样,我们的数据量在数量、多样性和速度上都在持续增长。”“我们需要理解这些数据,并为其带来价值。”

更多在IIOT.