因此,更多的强调被放在特定的应用和过程,在这些应用和过程中,性能和可靠性等同于成功和增长。
每当流程被自动化或现有流程升级时,成功的执行通常取决于信息技术基础设施。这就是“时间就是金钱”不再只是一句民间格言的原因。如果一个关键任务应用程序不可用,整个流程就会崩溃。但是停机时间——不管是几分钟还是几小时——太频繁了。停工不仅会对生产力产生负面影响,还会给客户和业务伙伴带来损失。
考虑批量生产过程,在这种生产过程中,产品在预先确定的时间框架内一次生产一个。因为批处理过程需要严格遵守生产计划,即使是短暂的停机也会造成灾难性的多米诺骨牌效应,波及许多产品的生产计划。
那么,停机时间的成本是多少?一小时的停工真的会影响公司的利润吗?根据研究公司高德纳(www.gartner.com)最近的一份报告,无可否认,答案是肯定的。Gartner估计,所有行业每小时停机的平均成本为4.4万美元;对许多制造商来说,这肯定会更多。
当关键系统失败时 - 即使只有几次每年 - 那些可以快速加起来的美元。例如,一个以99.9%的正常运行时间效率运行的过程,平均每年大约有九个小时的停机时间。使用Gartner的保守费用估计,这增加了396,000美元的费用。
为了提高关键任务应用程序的可用性,一些制造商正在评估容错服务器平台,以提供性能和可靠性保证。直到最近,该技术才在行业标准平台上可用,从而大幅降低了价格。
简单地说,容错服务器可以以优于99.999的正常运行时间更好的水平运行。通常称为“五九”,这一级别的正常可靠性平均每年翻译成小于五分钟的计划计划停机。同样,使用Gartner估计,该估计数约为3,700美元,或392,300美元的可靠性99.9%。
容错服务器通过使用同步技术来实现这种高可用性。这种方法依赖于复制的容错硬件组件,这些硬件组件在同一时间以完全相同的方式同时执行完全相同的指令。如果一个组件发生故障,则伙伴组件已经在工作中,实质上是一个继续执行事务的活动备用组件;不存在停机时间,应用程序运行不受影响。
将容错平台与集群服务器系统进行比较,集群服务器系统通常用于高可用性。集群由多个相互连接的服务器组成,这些服务器备份前面的每个服务器。当一台服务器宕机时,另一台服务器接管,提供良好但不容错级别的可用性。当主服务器发生故障时,在故障和故障转移(系统恢复的时间点)之间存在一段时间间隔,因此存在数据丢失的机会。这是一个重要的区别,因为在术语“容错”和“故障转移”方面存在一个常见的误解。容错服务器的设计目的是避免故障,防止停机和完全丢失数据,而集群的设计目的是在发生故障后恢复。
在制造业中,企业面临着更大的盈利压力,同时企业也面临着用更少的资源做更多事情的挑战。这意味着对关键工厂系统的24x7可靠性的需求比过去更大。制造商对IT硬件和软件供应商的要求不应低于此。
史蒂夫•Keilen steve.keilen@stratus.com
本文作者Steve Keilen是Stratus Technologies公司的市场细分与联盟营销总监。