从NAS硬盘失效谈可靠性

2012年买了4块硬盘,2017年失效后又买了一块硬盘,2021年又失效一块,具体的数据如下:1、1块硬盘5年失效2、1块硬盘9年失效3、1块硬盘使用4年未失效4、2块硬盘使用9年未失效以上硬盘总时间时间为36年,失效数为2,按照传统的MTBF计算公式计算如下:MTBF=36/2=18年=15.768万小时很显然这个计算结果和厂商所宣称的相差太远,根本就不在一个数量级上。到底是哪出了问题呢?注:虽然很多厂商公开的可靠性数据几乎都是提供MTBF,但是我个人特别不建议大家采用这个指标来说明产品的可靠性水平,MTBF早就应该被废弃,它已经无法适应现在可靠性工作的需求。具体可以参考我很久之前写的关于MTBF的讨论。我不太清楚厂商的MTBF数据从何而来,但是基于我的个人经验肯定和我的实际数据有着很大的出入,显然是不对的。让我们从如下几个方面来讨论:1、如果厂商只是用预算软件随便算了一个交差有没有可能,有这个可能性,这样的差异是在正常范围内。2、是不是我的使用环境太差导致?我的NAS仍在一个柜子里面,通风较差,夏天的温度比较高,至少比环境温度高个10度以上吧,根据10度法则,温度上升10度寿命降低一半,如果活化能高一点呢,这时候就和原厂的数据更加接近了。考虑到我总共只有5个样品,计算结果的误差相对大一些,这就更容易理解了。3、第一个硬盘5年就坏了,而其它的硬盘则好很多。基于电子产品失效率随机来讲是可以解释的通的。那么是不是可以认为5年就失效的那个其实质量较差,刚好被我买到了,这么来说就比较安慰了。两块硬盘失效的具体原因我个人不太清楚,因为对于硬盘设计不了解,无法开展失效分析的工作。但是不管怎样我们是肯定不能够依赖硬盘来保护我们的数据的,硬盘迟早会坏,我们需要有更好的方法来保证数据随时可以读取。好了,硬盘的可靠性不够高,要想数据的可靠性高怎么办呢?最简单粗暴的方式就是冗余备份。NAS就是干这个的,其中RAID 1、5和10都有冗余。RAID 1是2个硬盘进行相互备份,任何一个硬盘损坏都不影响数据的读取。RAID 5是要在多个硬盘之间用1块硬盘的容量来做备份,也就是牺牲掉1块硬盘的容量,任意1块硬盘损坏都会不影响数据的读取,直接更换掉损坏的硬盘就可以重建RAID恢复所有的数据。RAID 10是4个硬盘或者更多的偶数硬盘进行1:1备份,用4个硬盘来举例,1和2是相互备份的,3和4是相互备份的,任意1块硬盘失效不影响数据的读取,最多可以损坏一半的硬盘数据,但是这时候只能够是每组数据中损坏1块硬盘,如果一组硬盘中的2个硬盘全部损坏也会导致数据的丢失。我个人对于速度的要求不高,相比较而言RAID 5速度慢对我没有影响,但是相比较而言RAID 5比RAID 1和10的容量利用率更高,所以我选择的是RAID 5,幸运的时暂时只碰到每次只是1个硬盘出现失效,所以没有导致我的数据出现丢失。考虑到数据的宝贵,我个人考虑后面再购置1个NAS,通过2个NAS之间进行相互备份来保证数据存储的可靠性。毕竟个人加上工作上的几十年积攒下来的几TB的数据实在丢不起。个人也乘此机会建议大家有条件的也购置NAS来保存个人和工作上的数据,当然如果数据量不大的可以考虑付费购买云盘的存储空间,那样做更简单,我还是想数据在自己手上,所以选择了自行购买NAS的途径。 [...]

从NAS硬盘失效谈可靠性2021-02-24T09:38:23+08:00

温湿度加速模型:Lawson

温湿度加速模型我们多采用Peck模型,但是其实温湿度加速模型有不少,今天就为大家介绍另外一个应用也比较多的Lawson模型。但是大家千万要注意的是模型都是有其适用性的,不能生搬硬套,否则只是在做无用功。

温湿度加速模型:Lawson2021-02-24T10:14:40+08:00

加速可靠性试验方法概述

随着产品可靠性水平的提高,可靠性试验如果不加速,则试验时间或者试验样本数量是几乎所有的企业所无法接受的,所以我们必然希望寻求缩短试验时间或者降低试验样本数量的方法来提高效率。而我们通常把缩短时间的试验称为加速可靠性试验。以下为常见的加速试验方法,在实际应用中并不是只采用其中的一种方法,很多时候会同时采用其中的两种甚至更多方法以求获得更短的试验时间。 大样本试验数据统计分析:产品的强度总体是服从特定的分布,如果只是对极少的样品开展试验,从统计的角度考虑我们就只能够假设所抽样的样品属于总体中相对较好的部分,从而确保最终的结果能够满足总体的分布。这时候就可以通过增加样本数量来降低对于每个试验样品的试验条件,从而获得加速。我们经常开展的电子产品加速可靠性试验属于一个特例,并不是能很好的说明问题,而在机械产品可靠性试验中所采用的威布尔分布计算是一个比较好的增加样本数据进行加速的典型应用。由于试验样本数量很大,所以起风险很低,通常是趋于保守的结果。 增加使用频率:通过缩短或者降低非工作时间来提高占空比甚至是的产品一直工作可以缩短试验时间并获得加速。例如某开关一天的使用次数为2次,但是在实验室则可以通过提高占空比来实现每分钟一次,进而达到在一天完成实际现场工作10年的次数,极大的压缩了试验时间,实现了加速。此方法的风险很低,但是对于特定产品增加占空比会引入其它影响,例如机械零部件长时间工作会导致发热无法即使散去,相比于实际使用占空比较低时可以通过自然散热的方式降低温度,也就是说连续时间相比于正常使用更加严酷,在实际试验室需要单独评估其影响,从而确保试验结果的精度。 去除无失效时间:对于某些产品会存在每天的工作时间较短,在其它时间出于待机状态,由于待机状态的功耗远低于正常工作水平,相应的对于产品可靠性的影响也较低,这时可能会选择假设待机时对产品失效率的贡献为零,进而缩短产品的实际工作时间来达成加速。例如汽车的ECU在停车时处于待机状态,功耗很低,我们会假设其对于失效率的贡献为零。通常乘用车的要求是10年,15万公里,这时我们就无需满足10年的工作时间要求,更多的是15万公里对应的工作时间,假设平均时速为50公里,则15万公里对应的工作时间则为3000小时,相对于10年的87650小时大为降低,从而达成了加速。此处需要特别注意的是我们虽然假设待机时不会对产品的失效有任何的贡献,但是这并不是事实,影响是肯定存在的只是大小的问题。这就需要我们具体评估待机时的工作环境温度或者其它应力相比于实际工作是的应力水平差异,如果两者比较接近则不能够简单假设待机时对于产品的失效率没有任何贡献。 提高试验应力水平:产品的工作应力越高则失效率越高,寿命月底,所以通过提高产品的试验应力水平就可以获得加速来降低试验时间。提高试验应力水平对应的加速因子通常是通过加速模型计算获得,如果暂时没有成熟的加速模型,则需要通过试验数据来进行拟合或者通过其它方法获得,否则无法开展加速寿命试验。对于加速模型都存在适用性的问题,这个在选择模型的需要特别注意,另外很多加速模型的特定参数存在举止范围的经验推荐,值的选择大小会对最终所计算出的加速因子影响很大,这就导致了其不确定性,所以相对其它的加速方法风险偏高。但是现在产品的可靠性越来越高,如果不采用提高试验应力水平其试验时间或者样本数量绝大多数企业是无法承受了,所以实际上提高试验应力水平的方法还是得到了广泛的应用。 [...]

加速可靠性试验方法概述2021-04-27T21:02:55+08:00

F-35可靠性指标

经常会和同行讨论到产品的可靠性指标应该定什么,定多少还是其次了,MTBF肯定不行,那么应该是什么呢?其实每个产品和企业尤其特殊性,没有标准答案,今天来看一下F-35战斗机的可靠性指标定了什么。 了。那么产品的可靠性指标应该是什么呢?下面的指标是我们可以尝试的。1、年失效率2、年返修率3、首3个月失效率4、可用性5、平均维修时间6、投诉率7、年维修费用个人建议是和公司的KPI以及数据收集挂钩,必须要可以对公司的KPI直接关联而且可以在发货后持续进行监控。来看看F-35战斗机的可靠性指标,其中任务可靠性,平均失效间隔飞行时间,平均维修时间,每飞行小时的维修时间有明确的要求,但是除此以外还会对平均维修时间的间隔飞行时间、平均硬件替换飞行时间、平均严重失效间隔飞行时间和平均严重失效维修时间进行评估。从下表我们可以看到不同的指标当前的达成情况,大家可以认为这个数据是在F-35战斗机的开发过程中持续评估并进行更新,从而可以全部监控可靠性指标的达成情况以及其风险,而这在绝大多数企业其实是做的很欠缺的。我们不仅要制定正确合理的可靠性指标,更为关键的是在产品开发过程中要持续评估来跟踪可靠性指标的达成情况,并就所发现的可靠性风险开展相应的工作来及时进行改善。

F-35可靠性指标2021-02-05T15:37:54+08:00

Flash存储芯片的寿命

随着Flash存储芯片的广泛应用以及存储芯片技术的发展,Flash存储芯片的寿命将会越来越重视,尤其是在安全性要求比较高的应用场景。例如最近Tesla电动汽车就出现了因为存储芯片失效而导致的召回。 在过去 13 个月内收到 11 起关于旧款特斯拉 Model S 中央触控屏幕失灵的投诉之后,NHTSA(美国国家公路交通安全管理局)日前正式就此问题启动了调查。按照他们的说法,在 [...]

Flash存储芯片的寿命2021-02-05T15:12:57+08:00