IT/OT监控:您的数据中心是否有检查引擎灯?

冗余设计已经变得如此强大，以至于当失败发生时，我们往往不会错过任何一个节拍。如果不监控这些资产，问题可能会在雷达下消失，直到灾难性故障发生。

托马斯·罗斯Hargrove Controls + Automation工业物联网主管

2018年5月28日

Thomas Roth, Hargrove Controls + Automation

对于大多数工业现场，预防性维护和监控是运营和维护团队熟悉的做法。他们识别、评估和更换硬件故障。他们调查警报，评估其影响并相应处理。并非所有灾难性故障都可以预防，但通常有一些迹象表明故障即将发生，并且可以进行适当的准备。

不幸的是，这些实践通常不能扩展到工业数据中心和工业控制系统(ICS)网络。通过在我们用于监控工厂的数据中心中实现相同的实践，我们可以帮助防止灾难性故障，并减少我们最重要的集中资源之一的停机时间。

通常情况下，IT基础架构对话是在一开始就关注于改进冗余和消除单点故障。不幸的是，如果在实施冗余设计时没有启动相应的监控程序，它们可能会提供一种虚假的安全感。根据我们的经验，在没有向操作或维护团队发出任何指示的情况下，工厂在部分故障转移中运行是很常见的。我们的冗余设计已经变得如此强大，以至于当故障发生时，我们往往不会错过任何一个节拍。如果不监控这些资产，问题可能会在雷达下消失，直到灾难性故障发生。这些故障可能会导致更大规模的工厂停运，影响生产，并需要昂贵的维修，而不是相对良性的更换。

在最近的一次服务电话中，我们亲身体验了关键IT系统故障的风险。客户端的主ICS存储阵列发生灾难性硬盘驱动器故障。该系统的冗余设计为单容错，但在第二次驱动器故障时不会持续。由于其ICS存储阵列停机，在重建阵列和恢复备份时，该工厂将发生代价高昂的停机和生产损失。

该工厂没有监控IT基础设施或提醒运营人员的系统。如果不是因为技术人员偶然通过服务器机房，故障的唯一指示可能是系统停机时。在本例中，我们能够毫无故障地更换驱动器并重建阵列，但这仅仅是因为一位目光敏锐的技术人员选择对与其手头任务无关的项目采取行动。

我们打赌你们中的许多人都有类似的经历。我们的尸检显示驱动器在三周前就显示出了问题。但由于错过了避免灾难性失败的早期机会，我们被迫在没有适当时间实施应急计划和降低风险的情况下采取高风险的行动计划。ICS存储阵列显示即将发生故障，但没有检查引擎指示灯来表明这一点。

为了帮助降低灾难性故障的风险，我们建议使用IT/OT监控程序，它可以在问题变成故障之前指出问题。IT系统包括大量内置的监控服务、检查和数据。但是，如果没有工具来聚合所有这些数据，手动监控单个资产的成本可能会高得令人望而却步。这些资产将继续愉快地运行，直到崩溃。

通过实施监控工具，维护和运营团队可以拥有一块玻璃，显示工厂中几乎所有IT/OT资产的总体健康状况。如果及早发现故障，就可以防止中断，降低操作的总体成本。随着工厂实施更多的工业物联网(IIoT)设备和传感器，这些概念将直接转化为运营方面的成本节约。

托马斯·罗斯在这场比赛中领先哈格罗夫控制+自动化，是控制系统集成商协会(相)。有关哈格罗夫控制+自动化的更多信息，请访问其简介工业自动化交换．