虽然自动化的世界大多数情况下,它的覆盖重点是自动化技术的工厂车间应用,保护操作和控制大部分车间自动化的软件应用程序是现代制造业的关键要求。虽然没有人忽视这些应用程序,但在某些情况下,用于保护它们的策略可能存在问题。
为了说明我的观点,最近的一项调查层云在各行各业的制造商中,有30%的制造商在2013年前4个月经历了一个或多个应用程序的停机。更令人担忧的是,根据Stratus的数据,从2012年到2013年,平均停机事件数量大幅增加,从4次增加到7次,每次事故造成的损失约为1.7万美元。
至于为什么意外停机事件可能会上升,Stratus表示,其研究表明,只有三分之一的受访者拥有高可用性制造IT战略。在这些制造商中,66%依靠传统的备份来维持系统的可靠性和正常运行时间。
Stratus Technologies的制造业务开发总监Frank Hill表示:“虽然备份是确保在人为错误、断电、硬件故障或自然灾害的情况下恢复应用程序和数据的重要最佳实践,但对于‘永远在线’的制造环境来说,它并不是可靠的高可用性策略。”从备份中恢复应用程序和数据是一个漫长的手动过程,可能需要数小时甚至数天才能完成。与此同时,设备闲置,客户订单延迟,生产力成本损失蚕食了本已紧张的利润率。”
Stratus的数据显示,尽管比例较小,但仍有很大比例的制造商使用内置的高可用性功能(26%)或集群(19%)来减少计划外停机时间,而不是使用传统的备份系统。虽然这些方法在实现高可用性方面比传统的备份更有效,但Hill说这些方法仍然不是理想的,因为它们侧重于从系统中断中恢复,而不是防止系统中断。
Hill说:“内置的可用性功能和集群解决方案依赖于复杂的‘故障恢复’机制,这会导致不同程度的停机时间。”在这些故障转移/恢复期间(从几秒到几分钟不等),备份系统会自动重新启动应用程序并登录用户。这种故障转移过程可能会降低性能,降低吞吐量,并导致丢失'正在运行'的数据。”
Hill说,集群是由传统的服务器、软件和支持技术组合而成的,需要专业的IT专业人员进行警惕的管理监督。它们需要故障转移脚本和测试,无论何时对环境进行更改,都必须重复这些脚本和测试。此外,它们可能需要软件的多个副本的许可和安装,以及软件升级和应用程序修改。一些集群解决方案甚至需要外部共享存储,这增加了成本和复杂性。”
考虑到Stratus是确保正常运行时间的It基础设施供应商,因此Stratus提供关于如何纠正这种情况的建议并不奇怪,但无论您与谁合作提供系统基础设施支持,它的建议都值得考虑。
根据Hill的说法,确保关键制造应用程序持续可用的最佳方法是采用一种策略,从一开始就防止停机发生,而不是仅仅从停机中恢复。Hill建议使用内置容错功能的高可用性软件解决方案。Hill补充说,这种策略“将两个标准服务器的物理资源结合到一个单一的操作环境中,所有底层硬件和数据都具有完全冗余,以防止意外停机并保持应用程序运行,即使在组件或系统出现故障的情况下也是如此”,并指出这种方法创建了一个提供“99.995%或更高可用性级别”的应用程序环境。
Hill说,与许多专注于故障转移和恢复的可用性解决方案不同,容错服务器的设计目的是“在导致代价高昂的系统停机或数据丢失之前检测、隔离和纠正系统问题”。
这些高可用性容错系统通过使用“同步架构”来实现这一点,该架构在两个独立的硬件组件中同时处理工作指令并同步内存,因此即使组件发生故障,用户也不会中断操作。这些系统内置的24/7支持技术监控数百个关键条件,在影响系统性能或可用性之前主动解决问题。其结果是不间断作业,平均每月停机时间不到30秒。”
在这一点上,一个明显的问题是:如果这些高可用性、容错系统如此出色,为什么没有更多的制造商使用它们?希尔说,部分原因是人们误以为这些系统太贵了。
现实情况是,高可用性容错软件解决方案可能比替代解决方案更具成本效益,并且更容易部署和管理。Hill说:“一些高可用性的软件产品运行在标准的x86服务器上,大多数组织在其计算基础设施中已经有了这些服务器。这些解决方案提供了操作的简单性,允许您运行现有的应用程序,而无需承担修改的风险和费用,这些修改可能会对多年未更改的应用程序产生负面影响。此外,它们提供的可用性级别超过了集群提供的可用性级别。”
Hill补充说,容错平台系统提供了总体拥有成本优势。例如,Hill指出,这些系统包括复制的硬件组件—cpu、芯片组和内存—因此您不需要为第二台服务器、操作系统的另一个副本、复制的应用程序许可证、冗余交换机和外部存储付费。此外,更简单的配置和更少的组件意味着更低的成本-无论是前期还是整个系统生命周期。再加上通过避免意外停机而节省的成本,您就可以明白为什么一些制造商在短短9个月内就从他们的容错平台中获得了回报。”
当您希望改善正常运行时间并保护制造应用程序时,考虑使用高可用性、容错系统可能是有意义的。