大数据的一个大问题是,大数据太多了,尤其是在生命科学行业,信息来自各个不同的方向,包括研发、制造、临床试验,甚至是患者护理。
更复杂的是,美国食品和药物管理局(FDA)和欧洲药品管理局(EMA)正在通过将优良生产实践转化为法规的形式施加新的压力。例如,最新的制药行业指南,称为持续工艺验证(CPV),要求收集和分析端到端生产和工艺数据,以确保产品输出在预定的质量限制内。
基本上,FDA在2011年发布的指南和EMA在2014年采用的“工艺验证指南”要求制药商通过确保在整个生产生命周期中保持恒定的控制状态,对其生产工艺的性能进行持续验证。如果过程不受控制,指南要求采取纠正或预防措施。
虽然这是一个很好的概念,但对于制药公司来说,这是有问题的,原因有两个:第一,每个流程和方法都被记录和验证,以满足监管要求。任何更改都需要重新验证—这是一项繁重的任务。第二,生命科学产业仍然非常依赖纸张。到目前为止,对大数据的统计分析已经被降级到研发和药品审批过程。但分析学尚未应用于制造业。
该公司首席技术官路易斯•哈尔沃森(Louis Halvorsen)表示:“我们在实验室里有人使用我们的软件来监控分析过程,但当我们谈到工厂车间时,他们只是抬头看看,耸了耸肩。西北地区分析.但他说,持续的过程验证正在推动使用统计过程控制来监控制造过程。
这是让监管机构快乐的全部。符合CPV的公司被检查员享有有利的灯光,使审计更容易。尽管如此,遵守CPV和数据完整性对制药行业带来了新的挑战。只需向副科学家询问捐款公司吉利德科学公司在软木,爱尔兰。好消息是,自从Gilead Sciences开始使用Northwest Analytics软件执行CPV并显示过程中的变化以来,这已经是一个相当轻松的过程。西北分析软件提供帮助的一个例子是能够满足CPV指导,预测产品的货架期。Halvorsen说:“FDA表示,如果一家公司遵循该指南,它将是一个简短而友好的审核。”“但如果你的统计学家对预测保质期有自己的想法,(FDA)会请他们自己的专家来进行审计。”
除此之外,将大数据分析应用于工厂还会带来更多机会。事实上,大数据正迅速成为生命科学行业的一件大事,因为它可以帮助提高质量,整合it和制造操作,实现更好的预测,甚至弥合研发、制造、临床试验、患者健康和FDA的监督之间的鸿沟。
“运动扩大的数据集生命科学公司看,不仅将产品推向市场,但确保它是安全的和有效的和潜在的识别新的机会,”马特•格罗斯表示,健康和生命科学全球实践主任SAS研究所.
但仍然有一个大障碍需要克服:从哪里开始?
大数据发射
吉利德科学公司是将大数据分析应用于制造业的先驱公司之一。几年前,该公司用西北分析统计软件取代了用于手动跟踪数据的Microsoft Access数据库和Excel电子表格,并将其与实验室信息管理系统(LIMS)和其他应用程序集成在一起。
但与其他许多从手工数据收集转向自动分析的公司一样,由于可用数据量巨大,吉利德在启动部署时遇到了困难。科克利说:“我们面临的挑战是,有很多来自不同来源的数据。”“数据越多并不一定越好。”
要开始筛选不太重要的数据,每个部门都被问到它想要趋势。然后,通过基于对产品的影响的影响,对较大的制造参数进行风险分析,发生变化的可能性,以及在有意义的控制点处检测有意义的变化的能力。从那里,公司只应用了西北分析软件,只在既严重和表现出变化的参数和性能指标上。
Coakley说:“我们从我们的过程中收集了如此多的数据,以至于不可能全部分析。”“在CPV之前,我们只在知道有问题时才查看数据。有了CPV,我们就能在不利趋势成为问题之前得到警告。”
为了识别不利趋势,吉利德使用企业制造智能(EMI)仪表盘对数据进行趋势分析,并通过用绿色、黄色或红色标记的颜色对数据进行编码,跟踪数据是否偏离趋势。
SAS的格罗斯也认为,开启新机会大门的是数据的质量,而不是数量。在操作中,一切都是关于基于风险的监控和将数据流聚集在一起以寻找模式。
形象化也很重要。格罗斯说:“你必须以一种能看到趋势、异常值和模式的方式(展示)信息,并深入挖掘,找出你想问的问题。”“我们的目标是减少向CEO提出正确问题所需的时间。”
当然,当你考虑到工业物联网(IIoT)的流数据时,所有这些都变得有点困难。
边缘的分析
在谈到质量控制时,公司必须能够捕获退出生产过程的数据,并且还将任何问题追溯到机器上甚至机器上的特定工具。直到添加IIOT,大数据讨论将数据呈现为巨型数据库并使用像Hadoop这样的分布式计算环境。但是,由于换档,特别是机器建设者,以包括较低级别的分析,并仅推动到企业或云的小型相关数据以进行进一步的趋势和分析。
机器的加工错误可能会导致生产的变化,但是关于机器发生了什么并不总是有足够的信息。Beckhoff自动化为了解决这一问题,该公司于去年年底推出了TwinCAT Analytics工具,预计今年年底就会上市。该工具将所有与流程相关的数据存储在控制器本地,并将一些数据推送到基于云计算的服务器上。它提供了整个过程的时间图像和生产数据,以便对机器的功能进行全面的状态分析。
使用高速摄像机并将数据传输到PC,通过粒子检验技术开发的自定义HMI软件显示注射器和小瓶的检查图像。 |
粒子检验技术PI-Tech是一种定制设计视觉软件,用于检查制药系统的制造缺陷。该软件使用Beckhoff技术将产品测试图像与模板图像进行比较,以发现可能存在缺陷的差异。使用高速摄像机并将数据传输到PC上,PI-Tech可以分析任何容器类型的划痕、裂缝和凹痕,如用于注射用包装的小瓶和法兰。
PI-Tech的工程师杰里·维瑟夫斯基(Jerry Wierciszewski)说:“我要负责收集数据并实时分析,以确定是拒绝还是通过。”“我还将实时收集的数据发送到数据库,以便科学家们日后检索。”
传输正确信息并与其他分析程序(TwinCAT analytics和另一种称为TwinCAT物联网套件的新工具将会做到这一点)交互的能力对大局很重要:与企业的其他部分和其他部分共享和配对数据。
最终,所有数据都与患者相关。这意味着要了解从研发到生产,从临床试验到药物批准,再到医院、病人甚至保险,整个过程中发生了什么。
但首先,该公司的数据和分析副总裁迈克·弗拉纳根(Mike Flannagan)表示思科“我们需要快速洞察一个有问题的趋势。”他补充说,物联网正在改变生命科学和其他行业的商业模式。“我们希望将(分析)推到尽可能接近制造点的地方,以便采取规避行动。如果我们看起来要制造出不好的药丸,我们就想阻止它,这就是为什么我们要把加工过程分配到所有边缘。”
思科的角色是创建一个网络基础架构,可以集成分布式数据。几年前,Cisco获得了Truviso,它提供实时流网络数据分析。去年,网络公司获得了ParStream该公司拥有一个专门为大量物联网数据设计的分析数据库。
Flannagan说:“ParStream可以运行在一个轻量级的服务器上,轻松管理多个tb的数据,所以你可以使用一个占用空间小的数据库,并将它分布到网络的边缘,在那里产生传感器数据。”通过将数据存储在本地,并将其视为一个大型虚拟数据库,生命科学公司可以轻松地处理数据。“如果你得到了审计,你就可以从各个制造工厂的数十个数据库查询记录……迅速将数据整合在一起。”
现在,假设药物在临床试验中。如果你能在产品上市前后做出更好的临床决策,更快地将更安全的产品推向市场,会怎么样呢?随着计算能力变得越来越快,存储变得越来越便宜,高级算法变得越来越容易获得,新的工具正在出现,以改善临床试验监控,甚至考虑到现实世界的患者治疗证据。
欢迎来到现实世界
制药公司很难管理和理解来自图像文件、视频和仪器的非结构化和复杂数据类型。在某些情况下,这些数据不是来自生产操作,而是来自临床试验和真实的患者数据。这些数据包括药物的商业化、治疗途径和处理的保险索赔等。
大数据解决方案供应商Saama技术,该公司最近发布了生命科学的流体分析,包括一个框架和针对特定用例的预构建分析模块。
在传统的制造医学世界中,创造了药物,进行了临床试验,然后药物通过FDA批准过程,可能需要数年。一旦药物被释放,真实世界的效果可能与实验室不同 - 但没有办法向科学家提供反馈。Saama的流体分析将实际数据拉动有关患者经验和保险索赔的药物的实际数据。
流体分析具有到不同数据源的连接器,允许用户对业务规则的异常进行操作。高级分析方法包括对临床试验的风险评估和药物有效性的比较,而仪表板可以提供药物治疗的视图,包括时间轴。尽管这似乎超出了制造业的大数据领域,但最终,一切都将被连接起来。
格罗斯说:“我们将关注来自临床试验的数据,关注安全性和有效性,并将来自医疗保健和可穿戴设备的真实数据纳入研究分析中。”
更重要的是,大数据的大教训是您需要过滤正确的信息。由于Gilead Sciences再次又一次地评论了Coakley,“更多数据不一定更好,除非它与过程相关。”