「Google Gemma 4」の版間の差分
Administrator (トーク | 投稿記録) |
Administrator (トーク | 投稿記録) 編集の要約なし |
||
| (同じ利用者による、間の12版が非表示) | |||
| 1行目: | 1行目: | ||
Google Gemma | '''Google Gemma 4'''とは、2026年4月に[[Google]]が公開した[[オープンウェイト]]な[[オープンAIモデル]]の[[人工知能]]、[[大規模言語モデル]]です。 | ||
ライセンスはApache 2.0ライセンスとなっており、商用利用や自由なカスタマイズも可能です。 | ライセンスはApache 2.0ライセンスとなっており、商用利用や自由なカスタマイズも可能です。 | ||
| 6行目: | 6行目: | ||
一番しょぼいモデルでも音声認識と音声理解ができます。 | 一番しょぼいモデルでも音声認識と音声理解ができます。 | ||
Google | [[Google TPU]]に最適化されており特定の[[GPU]]への依存もなく[[Mac]]でも快適に動きます。 | ||
個人で上位モデルを動かすならMac一択です。 | 個人で上位モデルを動かすならMac一択です。 | ||
[[OpenClaw]]でSeleniumを使ってGoogleニュースを巡回させて[[Moltbook]]にクソスレを立てさせていますが今のところ良い感じです。 | |||
== モデルファミリーとアーキテクチャ == | == モデルファミリーとアーキテクチャ == | ||
| 14行目: | 14行目: | ||
=== Effectiveシリーズ(E2B / E4B)=== | === Effectiveシリーズ(E2B / E4B)=== | ||
超モバイル、エッジデバイス、ブラウザ(Google PixelやChrome等)へのデプロイを想定した小サイズモデルです。有効パラメータ(Effective Parameters)の最適化と、各デコーダーレイヤーに独自の埋め込みテーブルを持つPLE(Per-Layer | 超モバイル、エッジデバイス、ブラウザ(Google PixelやChrome等)へのデプロイを想定した小サイズモデルです。有効パラメータ(Effective Parameters)の最適化と、各デコーダーレイヤーに独自の埋め込みテーブルを持つPLE(Per-Layer Embeddings)を採用。計算負荷を抑えつつ、オンデバイスでの表現力を最大化しています。E2Bならメモリ4GBくらいで動きます。 | ||
=== Mixture-of-Expertsモデル(26B A4B)=== | === Mixture-of-Expertsモデル(26B A4B)=== | ||
高スループットと高度な推論を両立させるために設計された効率的なMoEモデルです。生成時にはトークンごとに40億(4B)のパラメータのみをアクティブ化しますが、高速なルーティングを維持するために全260億パラメータをメモリに展開します。 | 高スループットと高度な推論を両立させるために設計された効率的なMoEモデルです。生成時にはトークンごとに40億(4B)のパラメータのみをアクティブ化しますが、高速なルーティングを維持するために全260億パラメータをメモリに展開します。 | ||
=== Denseモデル(31B)=== | |||
310億パラメータを持つ高密度モデルです。サーバーグレードのパフォーマンスとローカル実行の境界線を埋める存在であり、オープンモデルとして最高峰の知能と論理推論能力を提供します。 | |||
== 主要機能と進化点 == | == 主要機能と進化点 == | ||
| 69行目: | 69行目: | ||
標準推論より大幅に多いメモリが必要です。LoRA等のPEFT手法の活用が推奨されます。 | 標準推論より大幅に多いメモリが必要です。LoRA等のPEFT手法の活用が推奨されます。 | ||
== Apple Silicon(M4 Mac | == Apple Silicon(M4 Mac mini)での動作検証 == | ||
M4チップを搭載したMac mini等のApple Silicon環境では、ユニファイドメモリの容量によって動作可能なモデルが規定されます。 | M4チップを搭載したMac mini等のApple Silicon環境では、ユニファイドメモリの容量によって動作可能なモデルが規定されます。 | ||
=== 16GBモデル === | === 16GBモデル === | ||
一番安いM4 Mac mini 16GBモデルでもE2BおよびE4Bが非常に快適に動作します。26B A4Bの4-bit量子化(15.6GB)は無理です。クラッシュはしないが絶望的に応答が遅いです。 | |||
=== 24GB / 32GBモデル === | === 24GB / 32GBモデル === | ||
26B A4B(4- | 26B A4B(4-bit)が余裕を持って動作し、実用的な速度が得られます。 | ||
31B Dense(4-bit/17.4GB)も動作圏内ですが大規模なコンテキスト利用には急激なパフォーマンス低下を引き起こすので注意が必要です。推奨はしません。 | |||
=== 48GB / 64GBモデル(M4 Pro等)=== | === 48GB / 64GBモデル(M4 Pro等)=== | ||
31B Denseの8-bit量子化(30.4GB)が安定して動作します。26B A4Bは最高精度(BF16)での運用も視野に入ります。 | 31B Denseの8-bit量子化(30.4GB)が安定して動作します。26B A4Bは最高精度(BF16)での運用も視野に入ります。 | ||
== 導入とリソース == | |||
* モデル配布:KaggleおよびHugging Faceにて公開。 | * モデル配布:KaggleおよびHugging Faceにて公開。 | ||
* 推奨ツール:Ollama、vLLM、LM Studio、Google AI Edge (MediaPipe)。 | * 推奨ツール:Ollama、vLLM、LM Studio、Google AI Edge (MediaPipe)。 | ||
* ライセンス:Apache 2.0。 | * ライセンス:Apache 2.0。 | ||
Macかつ[[Ollama]]で試すのが簡単です。 | |||
[[category: 大規模言語モデル]] | [[category: 大規模言語モデル]] | ||
[[category: オープンAIモデル]] | [[category: オープンAIモデル]] | ||