「人工知能のパラメーター数」の版間の差分

2026年5月15日 (金) 05:32時点における版

人工知能のパラメーター数とは、その人工知能がプログラム中で使用している（メモリに保持している）行列やベクトルの総数です。

import torch

# 例えば、1000個の入力から500個の出力へ変換する層のパラメータ

# 重み: (出力数, 入力数) の行列
weights = torch.randn(500, 1000) 

# バイアス: (出力数) のベクトル
bias = torch.randn(500)

# パラメータ数 = 500 * 1000 + 500 = 500,500

数字がデカければ賢いという単純なものではありませんが、パラメータが多いほどモデルの表現力が増し、より複雑な文脈やニュアンスを理解・表現でき、高性能になる傾向があります。

2025年ごろからパラメーターを盛り盛りする競争が発生し、そのために必要なメモリが争奪戦になっています。なお、SSDの価格も上がっていますが、こちらはただの便乗値上げです。

必要となる推定メモリ量

推論

ざっくり推論は「10億パラメーター（1B）あたり4GB」です。

10億 * 32ビットfloat(4バイト) = 4GB

量子化すればどんどん小さくなります。

学習

一方でフル学習はその4〜6倍の「10億パラメータ（1B）あたり16〜24GB」です。オプティマイザ（AdamWなど）や勾配（Gradients）の保持に大量のメモリを消費するためです。