「Mixture of Experts」の版間の差分

← 古い編集

ビジュアルウィキテキスト

2025年10月6日 (月) 02:33時点における最新版

Mixture of Experts（MoE）とは、人工知能、とくに大規模言語モデル（LLM）で使われる重要なアーキテクチャのひとつで、「巨大なモデルを複数の「専門家」に分割し、入力ごとに必要な専門家だけを動かす仕組み」です。

従来は全教科を1人の全知全能の先生が担当していたものを、国語の先生、数学の先生、社会の先生などと科目ごとに分担したような感じです。

最小メモリ使用量が増える[編集 | ソースを編集]

すべての専門家をメモリに保持する必要あるため「起動した直後のメモリ使用量」は増えます。つまり人工知能アプリの起動に必要なメモリ容量が増えます。これは大した問題ではありません。

最大メモリ使用量が減る[編集 | ソースを編集]

前述のように最小メモリ使用量は増えますが「計算中のメモリ使用量の増加」、つまり最大メモリ使用量は減ります。これにより「起動したが途中でメモリ不足で落ちて使いものにならない」という現象は減るので絶対にこっちの方がいいです。

性能向上[編集 | ソースを編集]

専門家が役割分担することで精度向上します。

拡張性が高い[編集 | ソースを編集]

新しい専門家を追加すれば新タスクに対応可能です。ただし、組織が大きくなると専門家間の派閥争いなどで学習の安定化や調整が難しいというデメリットもあります。

主な採用例[編集 | ソースを編集]

@@ 1行目: / 1行目: @@
-'''Mixture of Experts'''（MoE）とは[[、人工知能]]、とくに[[大規模言語モデル]]（[[LLM]]）で使われる重要なアーキテクチャのひとつで、「巨大なモデルを複数の「専門家」に分割し、入力ごとに必要な専門家だけを動かす仕組み」です。
+'''Mixture of Experts'''（MoE）とは、[[人工知能]]、とくに[[大規模言語モデル]]（[[LLM]]）で使われる重要なアーキテクチャのひとつで、「巨大なモデルを複数の「専門家」に分割し、入力ごとに必要な専門家だけを動かす仕組み」です。
 従来は全教科を1人の全知全能の先生が担当していたものを、国語の先生、数学の先生、社会の先生などと科目ごとに分担したような感じです。
@@ 5行目: / 5行目: @@
 == 最小メモリ使用量が増える ==
 すべての専門家をメモリに保持する必要あるため「起動した直後のメモリ使用量」は増えます。
-つまり人工知能アプリの起動に必要なメモリ容量が増えます。
+つまり人工知能アプリの起動に必要なメモリ容量が増えます。これは大した問題ではありません。
 == 最大メモリ使用量が減る ==
 前述のように最小メモリ使用量は増えますが「計算中のメモリ使用量の増加」、つまり最大メモリ使用量は減ります。
-これによりメモリ不足で落ちる現象は減ります。
+これにより「起動したが途中でメモリ不足で落ちて使いものにならない」という現象は減るので絶対にこっちの方がいいです。
 == 性能向上 ==
@@ 18行目: / 18行目: @@
 ただし、組織が大きくなると専門家間の派閥争いなどで学習の安定化や調整が難しいというデメリットもあります。
-[[category:人工知能]]
+== 主な採用例 ==
+* [[Switch Transformer]]（Google, 2021）
+* [[Mixtral 8x7B]]
+* [[Wan 2.2]]
+[[category:大規模言語モデル]]