「人工知能のパラメーター数」の版間の差分

23行目: 23行目:
ざっくり推論は「10億パラメーター(1B)あたり4GB」です。
ざっくり推論は「10億パラメーター(1B)あたり4GB」です。
  10億 * 32ビットfloat(4バイト) = 4GB
  10億 * 32ビットfloat(4バイト) = 4GB
量子化すればどんどん小さくなります。
 
このメモリ量を減らすのに16ビット(FP16/BF16)などに量子化する手法が流行っています。
16ビット化すれば単純に半分程度になります。


=== 学習 ===
=== 学習 ===
一方でフル学習は推論の4〜6倍の「10億パラメータ(1B)あたり16〜24GB」です。
一方でフル学習は推論の4〜6倍の「10億パラメータ(1B)あたり16〜24GB」です。オプティマイザ(AdamWなど)や勾配(Gradients)の保持に大量のメモリを消費するためです。推論と違ってこちらは量子化などでメモリを節約するのは難しいです。
オプティマイザ(AdamWなど)や勾配(Gradients)の保持に大量のメモリを消費するためです。


[[category: 人工知能]]
[[category: 人工知能]]