「人工知能のパラメーター数」の版間の差分

32行目: 32行目:
  10億 * 32ビットfloat(4バイト) * 6 = 24GB
  10億 * 32ビットfloat(4バイト) * 6 = 24GB


オプティマイザ(AdamWなど)や勾配(Gradients)の保持に大量のメモリを消費するためです。推論と違ってこちらは量子化などでメモリを節約するのは難しいです。
オプティマイザ(AdamWなど)や勾配(Gradients)の保持に大量のメモリを消費するためです。推論と違ってこちらは全体を量子化してガツンとメモリを節約するのは難しいですが、オプティマイザや勾配だけを16ビット化したりする手法は考案されています。


[[category: 人工知能]]
[[category: 人工知能]]