达普首页 > 技术资料 > 时事热评

IBM XIV可能存在可靠性隐患

作者：Joerg Hallbauer

我已经有段时间没有发表博文了。我可以用常见的借口说我很忙（这也是事实）。但是实际上我是没有看到真正让我感兴趣的事情！

但是现在，我看到了一个真正让我感到很有兴趣的事情。新的IBM XIV。我不知道你有没有从IBM那里听到过这个新的存储平台，但是我已经遇到许多人已经在认真考虑XIV，或已经购买或部署这个系统。XIV吸引人之处有：

1 它确实很便宜。我早就听说为了让客户购买设备，IBM在价格上几乎是能让步就让步。

2 用SATA设备提供相当于光纤通道的性能。我猜这可能是IBM保持低价的手段之一。

3 低价格，但是可以提供第一层存储的性能和可靠性

但是，天底下没有免费的午餐。当然，我也不喜欢做这种分析，但是你确实不能免费获得好处。问题是，XIV是否太过于美好以至于不真实？答案是：是的，它确实是不真实的。

但是这篇博文的标题有些耸人听闻，是不是？不过，我想，一旦你了解这个"几乎免费"的XIV将给你的事业（至少是你的工作）带来多大的实际代价，你就会开始同意我的观点了。在大部分情况下，如果你购买的存储阵列最终导致关键系统发生多天故障，那你的饭碗就很危险了。这就是XIV给你带来的危险。

读者可能会反问：你在说什么呢？！IBM说XIV是"自我修复"的，而且XIV可以在30分钟内重新构建故障磁盘所丢失的数据。所以你说的情况怎么可能会发生呢？下面是IBM不想让你知道的XIV的阴暗面。由于XIV架构本身的原因，如果你的整个机箱中（不是机架，也不是独立磁盘冗余阵列组，而是包含180个驱动器的整个机箱）有两个驱动器在30分钟内接连发生故障，那么，那么你就会丢失整个阵列的数据。你的所有的第一层应用程序都会停止运作，而你必须从磁带中重新载入它们。这个流程会让你花很多时间，即使不是要花好几个星期，也会花好几天时间。比如说，SAP会一整个星期无法工作，Exchange会瘫痪3天。如果你给公司带来这样的设备，那你在公司的位置将岌岌可危。

IBM会告诉你说这种情况的发生概率非常小，几乎可以忽略不计。他们是对的，但是这个概率绝不是零，因此你还是要冒这个风险。还有一个需要记住的事情。大型数据中心所做的研究表明磁盘阵列在发生故障的时候并不是随机发生的。实际上，它们是往往是整个集群发生故障，因此，在第一个驱动器发生故障之后，第二个驱动器在30分钟内发生故障的可能性要远远高于IBM向你所说的。不过，我们还有RAID（独立磁盘冗余阵列）保护对吗？但是，问题是XIV数据丢失的范围太大了。如果我的4+1 RAID-5组发生故障，我可能会丢失一些LUN（逻辑单元号），而且我可能需要从磁带中重新载入数据。但是，我绝不会丢失整个阵列！所以我的第一层应用程序所受到的影响会比较小，而且恢复的时间也会比较短。而如果我是用XIV，我的所有的第一层应用程序都瘫痪掉，而且必须从磁带中重新载入所有数据。

不过你不要认为我是完全反对XIV的，我只是反对将XIV用于第一层应用程序，甚至将XIV用于第二层应用程序也不好。如果你是在第三层应用程序（比如，数据归档）上使用XIV，那是比较合理的。你的归档流程即使停滞一两个星期，也不会对你的业务产生多大的负面影响。我所能想到的唯一的例外就是VTL（虚拟磁带库）。我绝对不会在VTL后面使用XIV磁盘。如果你的VTL丢失了所有的数据，你能想象是什么情景吗？如果这样，只能寄希望于你还有第二个数据副本了。

最后，IBM的回复之一是"如果你有这担心，只要将XIV再复制一次就好了"。他们是对的，但这样做也会使存储的成本增加一倍，不是吗？