「Google Gemma 4」の版間の差分
Administrator (トーク | 投稿記録) 編集の要約なし |
Administrator (トーク | 投稿記録) |
||
| 54行目: | 54行目: | ||
== メモリ計画における考慮事項 == | == メモリ計画における考慮事項 == | ||
=== PLEのオーバーヘッド(Eシリーズ) === | |||
埋め込みテーブルが大きいため、静的ウェイトの読み込みには有効パラメータ数から算出される以上のメモリが必要です。 | |||
=== MoEの全ウェイト展開(26B)=== | |||
推論負荷は4B分ですが、メモリには260億パラメータすべてを読み込む必要があります。 | |||
=== KVキャッシュ(コンテキスト)=== | |||
コンテキストを長く取るほど、ベースウェイトに加えて数GBから数十GBのVRAMが動的に追加消費されます。 | |||
=== ランタイムとOS=== | |||
実行ソフトやOSが占有するメモリ領域(約2から4GB)を別途確保する必要があります。 | |||
=== ファインチューニング === | |||
標準推論より大幅に多いメモリが必要です。LoRA等のPEFT手法の活用が推奨されます。 | |||
=== Apple Silicon(M4 Mac mini等)での動作検証 === | === Apple Silicon(M4 Mac mini等)での動作検証 === | ||
M4チップを搭載したMac mini等のApple Silicon環境では、ユニファイドメモリの容量によって動作可能なモデルが規定されます。 | M4チップを搭載したMac mini等のApple Silicon環境では、ユニファイドメモリの容量によって動作可能なモデルが規定されます。 | ||
=== 16GBモデル === | |||
E2BおよびE4Bが非常に快適に動作します。26B A4Bの4-bit量子化(15.6GB)は無理です。クラッシュはしないが絶望的に応答が遅い。 | |||
=== 24GB / 32GBモデル === | |||
26B A4B(4-bit)が余裕を持って動作し、実用的な速度が得られます。31B Dense(4-bit/17.4GB)も動作圏内ですが、大規模なコンテキスト利用には注意が必要です。 | |||
=== 48GB / 64GBモデル(M4 Pro等)=== | |||
31B Denseの8-bit量子化(30.4GB)が安定して動作します。26B A4Bは最高精度(BF16)での運用も視野に入ります。 | |||
=== 導入とリソース === | === 導入とリソース === | ||