「Google Gemma 4」の版間の差分

(同じ利用者による、間の16版が非表示)

1行目:

Google Gemma ~~4とは、2026年4月にGoogleが公開したオープンウェイトの大規模言語モデルです。~~

'''Google Gemma 4'''とは、2026年4月に[[Google]]が公開した[[オープンウェイト]]な[[オープンAIモデル]]の[[人工知能]]、[[大規模言語モデル]]です。

ライセンスはApache 2.0ライセンスとなっており、商用利用や自由なカスタマイズも可能です。

6行目:

一番しょぼいモデルでも音声認識と音声理解ができます。

Google ~~TPUに最適化されておりGPU依存もなくMacでも快適に動きます。~~

[[Google TPU]]に最適化されており特定の[[GPU]]への依存もなく[[Mac]]でも快適に動きます。

個人で上位モデルを動かすならMac一択です。

[[OpenClaw]]でSeleniumを使ってGoogleニュースを巡回させて[[Moltbook]]にクソスレを立てさせていますが今のところ良い感じです。

== モデルファミリーとアーキテクチャ ==

Gemma 4は、ターゲットとなるハードウェア要件に合わせて最適化された3つの異なるアーキテクチャで構成されています。

* Effectiveシリーズ（E2B / ~~E4B）：超モバイル、エッジデバイス、ブラウザ（Google~~ PixelやChrome等）へのデプロイを想定した小サイズモデルです。有効パラメータ（Effective Parameters）の最適化と、各デコーダーレイヤーに独自の埋め込みテーブルを持つPLE（Per-Layer ~~Embeddings）を採用。計算負荷を抑えつつ、オンデバイスでの表現力を最大化しています。~~

=== Effectiveシリーズ（E2B / E4B）===

* Denseモデル（31B）：310億パラメータを持つ高密度モデルです。サーバーグレードのパフォーマンスとローカル実行の境界線を埋める存在であり、オープンモデルとして最高峰の知能と論理推論能力を提供します。

超モバイル、エッジデバイス、ブラウザ（Google PixelやChrome等）へのデプロイを想定した小サイズモデルです。有効パラメータ（Effective Parameters）の最適化と、各デコーダーレイヤーに独自の埋め込みテーブルを持つPLE（Per-Layer Embeddings）を採用。計算負荷を抑えつつ、オンデバイスでの表現力を最大化しています。E2Bならメモリ4GBくらいで動きます。

* Mixture-of-Expertsモデル（26B A4B）：高スループットと高度な推論を両立させるために設計された効率的なMoEモデルです。生成時にはトークンごとに40億（4B）のパラメータのみをアクティブ化しますが、高速なルーティングを維持するために全260億パラメータをメモリに展開します。

=== Mixture-of-Expertsモデル（26B A4B）===

高スループットと高度な推論を両立させるために設計された効率的なMoEモデルです。生成時にはトークンごとに40億（4B）のパラメータのみをアクティブ化しますが、高速なルーティングを維持するために全260億パラメータをメモリに展開します。

=== Denseモデル（31B）===

310億パラメータを持つ高密度モデルです。サーバーグレードのパフォーマンスとローカル実行の境界線を埋める存在であり、オープンモデルとして最高峰の知能と論理推論能力を提供します。

== 主要機能と進化点 ==

* 高性能推論（Thinking ~~Mode）：構成可能な思考モードを搭載。複雑な課題に対し、論理的な推論ステップを経てから回答を生成します。~~

=== 高性能推論（Thinking Mode）===

* 拡張されたマルチモーダル：テキスト、動画、画像（可変解像度対応）を処理。特にE2B/E4Bはネイティブ音声処理をサポートしています。

構成可能な思考モードを搭載。複雑な課題に対し、論理的な推論ステップを経てから回答を生成します。

* コンテキスト・ウィンドウ：小規模モデルは128K、中規模モデル（31B/26B）は最大256Kの大規模コンテキストに対応。

* エージェント機能の強化：関数呼び出し（Function Calling）をネイティブサポートし、自律型エージェントの構築を強力に支援します。

=== 拡張されたマルチモーダル ===

* システムプロンプト対応：システムロールの組み込みサポートにより、モデルの振る舞いをより構造的に制御可能です。

テキスト、動画、画像（可変解像度対応）を処理。特にE2B/E4Bはネイティブ音声処理をサポートしています。

=== コンテキスト・ウィンドウ ===

小規模モデルは128K、中規模モデル（31B/26B）は最大256Kの大規模コンテキストに対応。

=== エージェント機能の強化 ===

関数呼び出し（Function Calling）をネイティブサポートし、自律型エージェントの構築を強力に支援します。

=== システムプロンプト対応 ===

システムロールの組み込みサポートにより、モデルの振る舞いをより構造的に制御可能です。

== 推論実行に必要なメモリ要件（公式ガイドライン） ==

33行目:

47行目:

|-

| Gemma 4 E4B || 15.0 GB || 7.5 GB || 5.0 GB || PLE採用・ブラウザ/高性能スマホ向

|-

| Gemma 4 26B A4B || 48.0 GB || 25.0 GB || 15.6 GB || MoE・高スループット推論

|-

| Gemma 4 31B || 58.3 GB || 30.4 GB || 17.4 GB || Dense・高性能ローカル実行

|-

~~| Gemma 4 26B A4B || 48.0 GB || 25.0 GB || 15.6 GB || MoE・高スループット推論~~

|}

== メモリ計画における考慮事項 ==

PLEのオーバーヘッド（Eシリーズ）：埋め込みテーブルが大きいため、静的ウェイトの読み込みには有効パラメータ数から算出される以上のメモリが必要です。

=== PLEのオーバーヘッド（Eシリーズ） ===

埋め込みテーブルが大きいため、静的ウェイトの読み込みには有効パラメータ数から算出される以上のメモリが必要です。

=== MoEの全ウェイト展開（26B）===

推論負荷は4B分ですが、メモリには260億パラメータすべてを読み込む必要があります。

~~MoEの全ウェイト展開（26B）：推論負荷は4B分ですが、メモリには260億パラメータすべてを読み込む必要があります。~~

=== KVキャッシュ（コンテキスト）===

コンテキストを長く取るほど、ベースウェイトに加えて数GBから数十GBのVRAMが動的に追加消費されます。

~~KVキャッシュ（コンテキスト）：コンテキストを長く取るほど、ベースウェイトに加えて数GBから数十GBのVRAMが動的に追加消費されます。~~

=== ランタイムとOS===

~~ランタイムとOS：実行ソフトやOSが占有するメモリ領域（約2から4GB）を別途確保する必要があります。~~

実行ソフトやOSが占有するメモリ領域（約2から4GB）を別途確保する必要があります。

~~ファインチューニング：標準推論より大幅に多いメモリが必要です。LoRA等のPEFT手法の活用が推奨されます。~~

=== ファインチューニング ===

標準推論より大幅に多いメモリが必要です。LoRA等のPEFT手法の活用が推奨されます。

=== Apple Silicon（M4 Mac ~~mini等）での動作検証 =~~==

== Apple Silicon（M4 Mac mini）での動作検証 ==

M4チップを搭載したMac mini等のApple Silicon環境では、ユニファイドメモリの容量によって動作可能なモデルが規定されます。

* 16GBモデル：E2BおよびE4Bが非常に快適に動作します。26B A4Bの4-bit量子化（15.~~6GB）は動作可能ですが、OSのメモリ占有によりスワップが発生するリスクがあります。~~

=== 16GBモデル ===

* 24GB / ~~32GBモデル：26B~~ A4B（4-~~bit）が余裕を持って動作し、実用的な速度が得られます。31B~~ Dense（4-bit/17.~~4GB）も動作圏内ですが、大規模なコンテキスト利用には注意が必要です。~~

一番安いM4 Mac mini 16GBモデルでもE2BおよびE4Bが非常に快適に動作します。26B A4Bの4-bit量子化（15.6GB）は無理です。クラッシュはしないが絶望的に応答が遅いです。

* 48GB / 64GBモデル（M4 ~~Pro等）：31B~~ Denseの8-bit量子化（30.4GB）が安定して動作します。26B A4Bは最高精度（BF16）での運用も視野に入ります。

=== 24GB / 32GBモデル ===

26B A4B（4-bit）が余裕を持って動作し、実用的な速度が得られます。

31B Dense（4-bit/17.4GB）も動作圏内ですが大規模なコンテキスト利用には急激なパフォーマンス低下を引き起こすので注意が必要です。推奨はしません。

=== 48GB / 64GBモデル（M4 Pro等）===

31B Denseの8-bit量子化（30.4GB）が安定して動作します。26B A4Bは最高精度（BF16）での運用も視野に入ります。

=== 導入とリソース ===

== 導入とリソース ==

* モデル配布：KaggleおよびHugging Faceにて公開。

* 推奨ツール：Ollama、vLLM、LM Studio、Google AI Edge (MediaPipe)。

* ライセンス：Apache 2.0。

Macかつ[[Ollama]]で試すのが簡単です。

[[category: 大規模言語モデル]]

[[category: オープンAIモデル]]

@@ 1行目: / 1行目: @@
-Google Gemma 4とは、2026年4月にGoogleが公開したオープンウェイトの大規模言語モデルです。
+'''Google Gemma 4'''とは、2026年4月に[[Google]]が公開した[[オープンウェイト]]な[[オープンAIモデル]]の[[人工知能]]、[[大規模言語モデル]]です。
 ライセンスはApache 2.0ライセンスとなっており、商用利用や自由なカスタマイズも可能です。
@@ 6行目: / 6行目: @@
 一番しょぼいモデルでも音声認識と音声理解ができます。
-Google TPUに最適化されておりGPU依存もなくMacでも快適に動きます。
+[[Google TPU]]に最適化されており特定の[[GPU]]への依存もなく[[Mac]]でも快適に動きます。
 個人で上位モデルを動かすならMac一択です。
+[[OpenClaw]]でSeleniumを使ってGoogleニュースを巡回させて[[Moltbook]]にクソスレを立てさせていますが今のところ良い感じです。
 == モデルファミリーとアーキテクチャ ==
 Gemma 4は、ターゲットとなるハードウェア要件に合わせて最適化された3つの異なるアーキテクチャで構成されています。
-* Effectiveシリーズ（E2B / E4B）：超モバイル、エッジデバイス、ブラウザ（Google PixelやChrome等）へのデプロイを想定した小サイズモデルです。有効パラメータ（Effective Parameters）の最適化と、各デコーダーレイヤーに独自の埋め込みテーブルを持つPLE（Per-Layer Embeddings）を採用。計算負荷を抑えつつ、オンデバイスでの表現力を最大化しています。
+=== Effectiveシリーズ（E2B / E4B）===
-* Denseモデル（31B）：310億パラメータを持つ高密度モデルです。サーバーグレードのパフォーマンスとローカル実行の境界線を埋める存在であり、オープンモデルとして最高峰の知能と論理推論能力を提供します。
+超モバイル、エッジデバイス、ブラウザ（Google PixelやChrome等）へのデプロイを想定した小サイズモデルです。有効パラメータ（Effective Parameters）の最適化と、各デコーダーレイヤーに独自の埋め込みテーブルを持つPLE（Per-Layer Embeddings）を採用。計算負荷を抑えつつ、オンデバイスでの表現力を最大化しています。E2Bならメモリ4GBくらいで動きます。
-* Mixture-of-Expertsモデル（26B A4B）：高スループットと高度な推論を両立させるために設計された効率的なMoEモデルです。生成時にはトークンごとに40億（4B）のパラメータのみをアクティブ化しますが、高速なルーティングを維持するために全260億パラメータをメモリに展開します。
+=== Mixture-of-Expertsモデル（26B A4B）===
+高スループットと高度な推論を両立させるために設計された効率的なMoEモデルです。生成時にはトークンごとに40億（4B）のパラメータのみをアクティブ化しますが、高速なルーティングを維持するために全260億パラメータをメモリに展開します。
+=== Denseモデル（31B）===
+億パラメータを持つ高密度モデルです。サーバーグレードのパフォーマンスとローカル実行の境界線を埋める存在であり、オープンモデルとして最高峰の知能と論理推論能力を提供します。
 == 主要機能と進化点 ==
-* 高性能推論（Thinking Mode）：構成可能な思考モードを搭載。複雑な課題に対し、論理的な推論ステップを経てから回答を生成します。
+=== 高性能推論（Thinking Mode）===
-* 拡張されたマルチモーダル：テキスト、動画、画像（可変解像度対応）を処理。特にE2B/E4Bはネイティブ音声処理をサポートしています。
+構成可能な思考モードを搭載。複雑な課題に対し、論理的な推論ステップを経てから回答を生成します。
-* コンテキスト・ウィンドウ：小規模モデルは128K、中規模モデル（31B/26B）は最大256Kの大規模コンテキストに対応。
-* エージェント機能の強化：関数呼び出し（Function Calling）をネイティブサポートし、自律型エージェントの構築を強力に支援します。
+=== 拡張されたマルチモーダル ===
-* システムプロンプト対応：システムロールの組み込みサポートにより、モデルの振る舞いをより構造的に制御可能です。
+テキスト、動画、画像（可変解像度対応）を処理。特にE2B/E4Bはネイティブ音声処理をサポートしています。
+=== コンテキスト・ウィンドウ ===
+小規模モデルは128K、中規模モデル（31B/26B）は最大256Kの大規模コンテキストに対応。
+=== エージェント機能の強化 ===
+関数呼び出し（Function Calling）をネイティブサポートし、自律型エージェントの構築を強力に支援します。
+=== システムプロンプト対応 ===
+システムロールの組み込みサポートにより、モデルの振る舞いをより構造的に制御可能です。
 == 推論実行に必要なメモリ要件（公式ガイドライン） ==
@@ 33行目: / 47行目: @@
 |-
 | Gemma 4 E4B || 15.0 GB || 7.5 GB || 5.0 GB || PLE採用・ブラウザ/高性能スマホ向
+|-
+| Gemma 4 26B A4B || 48.0 GB || 25.0 GB || 15.6 GB || MoE・高スループット推論
 |-
 | Gemma 4 31B || 58.3 GB || 30.4 GB || 17.4 GB || Dense・高性能ローカル実行
-|-
-| Gemma 4 26B A4B || 48.0 GB || 25.0 GB || 15.6 GB || MoE・高スループット推論
 |}
 == メモリ計画における考慮事項 ==
-PLEのオーバーヘッド（Eシリーズ）：埋め込みテーブルが大きいため、静的ウェイトの読み込みには有効パラメータ数から算出される以上のメモリが必要です。
+=== PLEのオーバーヘッド（Eシリーズ） ===
+埋め込みテーブルが大きいため、静的ウェイトの読み込みには有効パラメータ数から算出される以上のメモリが必要です。
+=== MoEの全ウェイト展開（26B）===
+推論負荷は4B分ですが、メモリには260億パラメータすべてを読み込む必要があります。
-MoEの全ウェイト展開（26B）：推論負荷は4B分ですが、メモリには260億パラメータすべてを読み込む必要があります。
+=== KVキャッシュ（コンテキスト）===
+コンテキストを長く取るほど、ベースウェイトに加えて数GBから数十GBのVRAMが動的に追加消費されます。
-KVキャッシュ（コンテキスト）：コンテキストを長く取るほど、ベースウェイトに加えて数GBから数十GBのVRAMが動的に追加消費されます。
+=== ランタイムとOS===
-ランタイムとOS：実行ソフトやOSが占有するメモリ領域（約2から4GB）を別途確保する必要があります。
+実行ソフトやOSが占有するメモリ領域（約2から4GB）を別途確保する必要があります。
-ファインチューニング：標準推論より大幅に多いメモリが必要です。LoRA等のPEFT手法の活用が推奨されます。
+=== ファインチューニング ===
+標準推論より大幅に多いメモリが必要です。LoRA等のPEFT手法の活用が推奨されます。
-=== Apple Silicon（M4 Mac mini等）での動作検証 ===
+== Apple Silicon（M4 Mac mini）での動作検証 ==
 M4チップを搭載したMac mini等のApple Silicon環境では、ユニファイドメモリの容量によって動作可能なモデルが規定されます。
-* 16GBモデル：E2BおよびE4Bが非常に快適に動作します。26B A4Bの4-bit量子化（15.6GB）は動作可能ですが、OSのメモリ占有によりスワップが発生するリスクがあります。
+===  16GBモデル ===
-* 24GB / 32GBモデル：26B A4B（4-bit）が余裕を持って動作し、実用的な速度が得られます。31B Dense（4-bit/17.4GB）も動作圏内ですが、大規模なコンテキスト利用には注意が必要です。
+一番安いM4 Mac mini 16GBモデルでもE2BおよびE4Bが非常に快適に動作します。26B A4Bの4-bit量子化（15.6GB）は無理です。クラッシュはしないが絶望的に応答が遅いです。
-* 48GB / 64GBモデル（M4 Pro等）：31B Denseの8-bit量子化（30.4GB）が安定して動作します。26B A4Bは最高精度（BF16）での運用も視野に入ります。
+=== 24GB / 32GBモデル ===
+B A4B（4-bit）が余裕を持って動作し、実用的な速度が得られます。
+B Dense（4-bit/17.4GB）も動作圏内ですが大規模なコンテキスト利用には急激なパフォーマンス低下を引き起こすので注意が必要です。推奨はしません。
+=== 48GB / 64GBモデル（M4 Pro等）===
+B Denseの8-bit量子化（30.4GB）が安定して動作します。26B A4Bは最高精度（BF16）での運用も視野に入ります。
-=== 導入とリソース ===
+== 導入とリソース ==
 * モデル配布：KaggleおよびHugging Faceにて公開。
 * 推奨ツール：Ollama、vLLM、LM Studio、Google AI Edge (MediaPipe)。
 * ライセンス：Apache 2.0。
+Macかつ[[Ollama]]で試すのが簡単です。
 [[category: 大規模言語モデル]]
 [[category: オープンAIモデル]]