从NAS硬盘失效谈可靠性
2012年买了4块硬盘,2017年失效后又买了一块硬盘,2021年又失效一块,具体的数据如下:1、1块硬盘5年失效2、1块硬盘9年失效3、1块硬盘使用4年未失效4、2块硬盘使用9年未失效以上硬盘总时间时间为36年,失效数为2,按照传统的MTBF计算公式计算如下:MTBF=36/2=18年=15.768万小时很显然这个计算结果和厂商所宣称的相差太远,根本就不在一个数量级上。到底是哪出了问题呢?注:虽然很多厂商公开的可靠性数据几乎都是提供MTBF,但是我个人特别不建议大家采用这个指标来说明产品的可靠性水平,MTBF早就应该被废弃,它已经无法适应现在可靠性工作的需求。具体可以参考我很久之前写的关于MTBF的讨论。我不太清楚厂商的MTBF数据从何而来,但是基于我的个人经验肯定和我的实际数据有着很大的出入,显然是不对的。让我们从如下几个方面来讨论:1、如果厂商只是用预算软件随便算了一个交差有没有可能,有这个可能性,这样的差异是在正常范围内。2、是不是我的使用环境太差导致?我的NAS仍在一个柜子里面,通风较差,夏天的温度比较高,至少比环境温度高个10度以上吧,根据10度法则,温度上升10度寿命降低一半,如果活化能高一点呢,这时候就和原厂的数据更加接近了。考虑到我总共只有5个样品,计算结果的误差相对大一些,这就更容易理解了。3、第一个硬盘5年就坏了,而其它的硬盘则好很多。基于电子产品失效率随机来讲是可以解释的通的。那么是不是可以认为5年就失效的那个其实质量较差,刚好被我买到了,这么来说就比较安慰了。两块硬盘失效的具体原因我个人不太清楚,因为对于硬盘设计不了解,无法开展失效分析的工作。但是不管怎样我们是肯定不能够依赖硬盘来保护我们的数据的,硬盘迟早会坏,我们需要有更好的方法来保证数据随时可以读取。好了,硬盘的可靠性不够高,要想数据的可靠性高怎么办呢?最简单粗暴的方式就是冗余备份。NAS就是干这个的,其中RAID 1、5和10都有冗余。RAID 1是2个硬盘进行相互备份,任何一个硬盘损坏都不影响数据的读取。RAID 5是要在多个硬盘之间用1块硬盘的容量来做备份,也就是牺牲掉1块硬盘的容量,任意1块硬盘损坏都会不影响数据的读取,直接更换掉损坏的硬盘就可以重建RAID恢复所有的数据。RAID 10是4个硬盘或者更多的偶数硬盘进行1:1备份,用4个硬盘来举例,1和2是相互备份的,3和4是相互备份的,任意1块硬盘失效不影响数据的读取,最多可以损坏一半的硬盘数据,但是这时候只能够是每组数据中损坏1块硬盘,如果一组硬盘中的2个硬盘全部损坏也会导致数据的丢失。我个人对于速度的要求不高,相比较而言RAID 5速度慢对我没有影响,但是相比较而言RAID 5比RAID 1和10的容量利用率更高,所以我选择的是RAID 5,幸运的时暂时只碰到每次只是1个硬盘出现失效,所以没有导致我的数据出现丢失。考虑到数据的宝贵,我个人考虑后面再购置1个NAS,通过2个NAS之间进行相互备份来保证数据存储的可靠性。毕竟个人加上工作上的几十年积攒下来的几TB的数据实在丢不起。个人也乘此机会建议大家有条件的也购置NAS来保存个人和工作上的数据,当然如果数据量不大的可以考虑付费购买云盘的存储空间,那样做更简单,我还是想数据在自己手上,所以选择了自行购买NAS的途径。 [...]