「人工知能のパラメーター数」の版間の差分
Administrator (トーク | 投稿記録) |
Administrator (トーク | 投稿記録) |
||
| 32行目: | 32行目: | ||
10億 * 32ビットfloat(4バイト) * 6 = 24GB | 10億 * 32ビットfloat(4バイト) * 6 = 24GB | ||
オプティマイザ(AdamWなど)や勾配(Gradients)の保持に大量のメモリを消費するためです。推論と違ってこちらは全体を量子化してガツンとメモリを節約するのは難しいですが、オプティマイザや勾配だけを16ビット化したりする手法は考案されています。 | |||
[[category: 人工知能]] | [[category: 人工知能]] | ||