「人工知能のパラメーター数」の版間の差分
Administrator (トーク | 投稿記録) 編集の要約なし |
Administrator (トーク | 投稿記録) |
||
| 20行目: | 20行目: | ||
== 必要となる推定メモリ量 == | == 必要となる推定メモリ量 == | ||
=== 推論 === | |||
ざっくり推論は「10億パラメーター(1B)あたり4GB」です。 | ざっくり推論は「10億パラメーター(1B)あたり4GB」です。 | ||
10億 * 32ビットfloat(4バイト) = 4GB | 10億 * 32ビットfloat(4バイト) = 4GB | ||
量子化すればどんどん小さくなります。 | 量子化すればどんどん小さくなります。 | ||
=== 学習 === | |||
一方でフル学習はその4〜6倍の「10億パラメータ(1B)あたり16〜24GB」です。 | 一方でフル学習はその4〜6倍の「10億パラメータ(1B)あたり16〜24GB」です。 | ||
オプティマイザ(AdamWなど)や勾配(Gradients)の保持に大量のメモリを消費するためです。 | オプティマイザ(AdamWなど)や勾配(Gradients)の保持に大量のメモリを消費するためです。 | ||
[[category: 人工知能]] | [[category: 人工知能]] | ||
2026年5月15日 (金) 05:32時点における版
人工知能のパラメーター数とは、その人工知能がプログラム中で使用している(メモリに保持している)行列やベクトルの総数です。
import torch
# 例えば、1000個の入力から500個の出力へ変換する層のパラメータ
# 重み: (出力数, 入力数) の行列
weights = torch.randn(500, 1000)
# バイアス: (出力数) のベクトル
bias = torch.randn(500)
# パラメータ数 = 500 * 1000 + 500 = 500,500
数字がデカければ賢いという単純なものではありませんが、パラメータが多いほどモデルの表現力が増し、より複雑な文脈やニュアンスを理解・表現でき、高性能になる傾向があります。
2025年ごろからパラメーターを盛り盛りする競争が発生し、そのために必要なメモリが争奪戦になっています。なお、SSDの価格も上がっていますが、こちらはただの便乗値上げです。
必要となる推定メモリ量
推論
ざっくり推論は「10億パラメーター(1B)あたり4GB」です。
10億 * 32ビットfloat(4バイト) = 4GB
量子化すればどんどん小さくなります。
学習
一方でフル学習はその4〜6倍の「10億パラメータ(1B)あたり16〜24GB」です。 オプティマイザ(AdamWなど)や勾配(Gradients)の保持に大量のメモリを消費するためです。