平均故障間隔
MTBF(語源:Mean Tiem Between Failure、和名:平均故障間隔)とは、平均的な故障の間隔の指標となる数値のことである。
目次
概要
MTBFはパソコンでいうHDDやSSDのRAID構成などのように「故障しても部品交換で再使用できる修理系システム」に用いられる。
修理できないシステムや部品の故障寿命は「MTTF (語源:Mean Time To Failure、和名:平均故障時間)」が用いられる。
実のところMTBF(平均故障間隔)もMTTF(平均故障時間)も同じものである。違いは「治る予定」か「治らない予定」かである。そもそも治る治らないは時の運であり、治るはずのシステムも壮大にぶっ壊れることもあるし、治らないはずのシステムも気合を入れて叩けば治ることもある。
計算式
基本となる計算式は以下の通りである。 前述のようにMTBF(平均故障間隔)もMTTF(平均故障時間)も同じものなので計算式も同じである。
MTBF = 稼働時間 / 故障回数
RAIDなどの例では本数(稼働台数)の概念が出てくる。また1時間単位では面倒なので24時間単位にしたほうが扱いやすい。基本となる計算式そのものは同じである。
MTBF = ( 稼働台数 * 稼動日数 * 24時間 ) / 故障交換台数
計算例
サーバー用HDD
エンタープライズ向けHDDで多い「MTBF140万時間」とあれば、140万台を同時稼働させると1時間に1台が壊れるという意味である。 これをHDD16本のRAID構成で5年間運用した場合に壊れるであろう台数を計算してみよう。
MTBF140万時間 = (HDD16本 * 5年 * 365日 * 24時間) / 故障台数 1,400,000 = 700,800 / 故障台数 故障台数 = 700,800 / 1,400,000 故障台数 = 0.5006
パソコン用HDD
同じく一般的なパソコン用のHDD(MTBF30万時間程度)でRAID1を構成した場合も計算してみよう。
MTBF30万時間 = (HDD2本 * 5年 * 365日 * 24時間) / 故障台数 故障台数 = 0.292
パソコン用SSD
同じく一般的なパソコン用のSSD(MTBF150万時間程度)でRAID1を構成した場合も計算してみよう。地味にパソコン用のSSDでもサーバー用の下手なHDDよりもMTBFは高い。
MTBF150万時間 = (HDD2本 * 5年 * 365日 * 24時間) / 故障台数 故障台数 = 0.0584
乖離
MTBFは平均値を用いた指標であり、個人の感覚上の故障間隔と大きく乖離する。
平均値は確率収束した前提の数字であるが、一般的に故障数のグラフが正規分布になる確率収束と呼べる数値は1000万件級のデータが必要であり、1個人や1企業の非常に少ない母数と短い期間では確率収束はありえないためこのような現象が発生する。つまり1万台を超えるサーバーを抱えるような世界的な大企業のデータセンターでも無い限り平均値は無意味である。
正規分布には程遠い試行数の場合は平均値ではなく中央値を用いて期待値を算出するのが望ましい。ちなみに中央値を用いる場合でも1万件以上のデータが推奨される。
それよりも少ない場合は最頻値を用いるのが望ましいが、その規模の場合は深く考えない方が良い。