「Google Gemma 4」の版間の差分

編集の要約なし
54行目: 54行目:


== メモリ計画における考慮事項 ==
== メモリ計画における考慮事項 ==
PLEのオーバーヘッド(Eシリーズ):埋め込みテーブルが大きいため、静的ウェイトの読み込みには有効パラメータ数から算出される以上のメモリが必要です。
=== PLEのオーバーヘッド(Eシリーズ) ===
埋め込みテーブルが大きいため、静的ウェイトの読み込みには有効パラメータ数から算出される以上のメモリが必要です。


MoEの全ウェイト展開(26B):推論負荷は4B分ですが、メモリには260億パラメータすべてを読み込む必要があります。
=== MoEの全ウェイト展開(26B)===
推論負荷は4B分ですが、メモリには260億パラメータすべてを読み込む必要があります。


KVキャッシュ(コンテキスト):コンテキストを長く取るほど、ベースウェイトに加えて数GBから数十GBのVRAMが動的に追加消費されます。
=== KVキャッシュ(コンテキスト)===
ランタイムとOS:実行ソフトやOSが占有するメモリ領域(約2から4GB)を別途確保する必要があります。
コンテキストを長く取るほど、ベースウェイトに加えて数GBから数十GBのVRAMが動的に追加消費されます。


ファインチューニング:標準推論より大幅に多いメモリが必要です。LoRA等のPEFT手法の活用が推奨されます。
=== ランタイムとOS===
実行ソフトやOSが占有するメモリ領域(約2から4GB)を別途確保する必要があります。
 
=== ファインチューニング ===
標準推論より大幅に多いメモリが必要です。LoRA等のPEFT手法の活用が推奨されます。


=== Apple Silicon(M4 Mac mini等)での動作検証 ===
=== Apple Silicon(M4 Mac mini等)での動作検証 ===
M4チップを搭載したMac mini等のApple Silicon環境では、ユニファイドメモリの容量によって動作可能なモデルが規定されます。
M4チップを搭載したMac mini等のApple Silicon環境では、ユニファイドメモリの容量によって動作可能なモデルが規定されます。


* 16GBモデル:E2BおよびE4Bが非常に快適に動作します。26B A4Bの4-bit量子化(15.6GB)は動作可能ですが、OSのメモリ占有によりスワップが発生するリスクがあります。
===  16GBモデル ===
* 24GB / 32GBモデル:26B A4B(4-bit)が余裕を持って動作し、実用的な速度が得られます。31B Dense(4-bit/17.4GB)も動作圏内ですが、大規模なコンテキスト利用には注意が必要です。
E2BおよびE4Bが非常に快適に動作します。26B A4Bの4-bit量子化(15.6GB)は無理です。クラッシュはしないが絶望的に応答が遅い。
* 48GB / 64GBモデル(M4 Pro等):31B Denseの8-bit量子化(30.4GB)が安定して動作します。26B A4Bは最高精度(BF16)での運用も視野に入ります。
 
=== 24GB / 32GBモデル ===
26B A4B(4-bit)が余裕を持って動作し、実用的な速度が得られます。31B Dense(4-bit/17.4GB)も動作圏内ですが、大規模なコンテキスト利用には注意が必要です。
 
=== 48GB / 64GBモデル(M4 Pro等)===
31B Denseの8-bit量子化(30.4GB)が安定して動作します。26B A4Bは最高精度(BF16)での運用も視野に入ります。


=== 導入とリソース ===
=== 導入とリソース ===