Mixture of Experts

Mixture of Experts（MoE）とは、人工知能、とくに大規模言語モデル（LLM）で使われる重要なアーキテクチャのひとつで、「巨大なモデルを複数の「専門家」に分割し、入力ごとに必要な専門家だけを動かす仕組み」です。

従来は全教科を1人の全知全能の先生が担当していたものを、国語の先生、数学の先生、社会の先生などと科目ごとに分担したような感じです。

最小メモリ使用量が増える

すべての専門家をメモリに保持する必要あるため「起動した直後のメモリ使用量」は増えます。

前述のように最小メモリ使用量は増えますが「計算中のメモリ使用量の増加」、つまり最大メモリ使用量は減ります。これによりメモリ不足で落ちる現象は減ります。

専門家が役割分担することで精度向上します。

新しい専門家を追加すれば新タスクに対応可能です。ただし、組織が大きくなると専門家間の派閥争いなどで学習の安定化や調整が難しいというデメリットもあります。