Google Gemma 4
Google Gemma 4とは、2026年4月にGoogleが公開したオープンウェイトの大規模言語モデルです。
ライセンスはApache 2.0ライセンスとなっており、商用利用や自由なカスタマイズも可能です。
質問応答、要約、高度な推論に加え、自律型エージェントの構築に特化した設計がなされています。 一番しょぼいモデルでも音声認識と音声理解ができます。
Google TPUに最適化されておりGPU依存もなくMacでも快適に動きます。 個人で上位モデルを動かすならMac一択です。 OpenClawでMoltbookにクソスレを立てさせていますが良い感じです。
モデルファミリーとアーキテクチャ
Gemma 4は、ターゲットとなるハードウェア要件に合わせて最適化された3つの異なるアーキテクチャで構成されています。
Effectiveシリーズ(E2B / E4B)
超モバイル、エッジデバイス、ブラウザ(Google PixelやChrome等)へのデプロイを想定した小サイズモデルです。有効パラメータ(Effective Parameters)の最適化と、各デコーダーレイヤーに独自の埋め込みテーブルを持つPLE(Per-Layer Embeddings)を採用。計算負荷を抑えつつ、オンデバイスでの表現力を最大化しています。
Denseモデル(31B)
310億パラメータを持つ高密度モデルです。サーバーグレードのパフォーマンスとローカル実行の境界線を埋める存在であり、オープンモデルとして最高峰の知能と論理推論能力を提供します。
Mixture-of-Expertsモデル(26B A4B)
高スループットと高度な推論を両立させるために設計された効率的なMoEモデルです。生成時にはトークンごとに40億(4B)のパラメータのみをアクティブ化しますが、高速なルーティングを維持するために全260億パラメータをメモリに展開します。
主要機能と進化点
高性能推論(Thinking Mode)
構成可能な思考モードを搭載。複雑な課題に対し、論理的な推論ステップを経てから回答を生成します。
拡張されたマルチモーダル
テキスト、動画、画像(可変解像度対応)を処理。特にE2B/E4Bはネイティブ音声処理をサポートしています。
コンテキスト・ウィンドウ
小規模モデルは128K、中規模モデル(31B/26B)は最大256Kの大規模コンテキストに対応。
エージェント機能の強化
関数呼び出し(Function Calling)をネイティブサポートし、自律型エージェントの構築を強力に支援します。
システムプロンプト対応
システムロールの組み込みサポートにより、モデルの振る舞いをより構造的に制御可能です。
推論実行に必要なメモリ要件(公式ガイドライン)
以下の数値は、静的モデルの重みを読み込むために必要な最小限のメモリ量(VRAM/RAM)です。
| パラメータ | BF16(16ビット) | SFP8(8ビット) | Q4_0(4ビット) | アーキテクチャ特性 |
|---|---|---|---|---|
| Gemma 4 E2B | 9.6 GB | 4.6 GB | 3.2 GB | PLE採用・超モバイル向 |
| Gemma 4 E4B | 15.0 GB | 7.5 GB | 5.0 GB | PLE採用・ブラウザ/高性能スマホ向 |
| Gemma 4 26B A4B | 48.0 GB | 25.0 GB | 15.6 GB | MoE・高スループット推論 |
| Gemma 4 31B | 58.3 GB | 30.4 GB | 17.4 GB | Dense・高性能ローカル実行 |
メモリ計画における考慮事項
PLEのオーバーヘッド(Eシリーズ)
埋め込みテーブルが大きいため、静的ウェイトの読み込みには有効パラメータ数から算出される以上のメモリが必要です。
MoEの全ウェイト展開(26B)
推論負荷は4B分ですが、メモリには260億パラメータすべてを読み込む必要があります。
KVキャッシュ(コンテキスト)
コンテキストを長く取るほど、ベースウェイトに加えて数GBから数十GBのVRAMが動的に追加消費されます。
ランタイムとOS
実行ソフトやOSが占有するメモリ領域(約2から4GB)を別途確保する必要があります。
ファインチューニング
標準推論より大幅に多いメモリが必要です。LoRA等のPEFT手法の活用が推奨されます。
Apple Silicon(M4 Mac mini)での動作検証
M4チップを搭載したMac mini等のApple Silicon環境では、ユニファイドメモリの容量によって動作可能なモデルが規定されます。
16GBモデル
E2BおよびE4Bが非常に快適に動作します。26B A4Bの4-bit量子化(15.6GB)は無理です。クラッシュはしないが絶望的に応答が遅い。
24GB / 32GBモデル
26B A4B(4-bit)が余裕を持って動作し、実用的な速度が得られます。
31B Dense(4-bit/17.4GB)も動作圏内ですが、大規模なコンテキスト利用には急激なパフォーマンス低下を引き起こすので注意が必要です。推奨はしません。
48GB / 64GBモデル(M4 Pro等)
31B Denseの8-bit量子化(30.4GB)が安定して動作します。26B A4Bは最高精度(BF16)での運用も視野に入ります。
導入とリソース
- モデル配布:KaggleおよびHugging Faceにて公開。
- 推奨ツール:Ollama、vLLM、LM Studio、Google AI Edge (MediaPipe)。
- ライセンス:Apache 2.0。
MacかつOllamaで試すのが簡単です。