Mixture of Experts

2025年10月6日 (月) 02:26時点におけるAdministrator (トーク | 投稿記録)による版 (ページの作成:「'''Mixture of Experts'''(MoE)とは、人工知能、とくに大規模言語モデルLLM)で使われる重要なアーキテクチャのひとつで、「巨大なモデルを複数の「専門家」に分割し、入力ごとに必要な専門家だけを動かす仕組み」です。 従来は全教科を1人の全知全能の先生が担当していたものを、国語の先生、数学の先生、社会の先生などと科目ごとに…」)
(差分) ← 古い版 | 最新版 (差分) | 新しい版 → (差分)

Mixture of Experts(MoE)とは、人工知能、とくに大規模言語モデルLLM)で使われる重要なアーキテクチャのひとつで、「巨大なモデルを複数の「専門家」に分割し、入力ごとに必要な専門家だけを動かす仕組み」です。

従来は全教科を1人の全知全能の先生が担当していたものを、国語の先生、数学の先生、社会の先生などと科目ごとに分担したような感じです。

最小メモリ使用量が増える

すべての専門家をメモリに保持する必要あるため「起動した直後のメモリ使用量」は増えます。

最大メモリ使用量が減る

前述のように最小メモリ使用量は増えますが「計算中のメモリ使用量の増加」、つまり最大メモリ使用量は減ります。 これによりメモリ不足で落ちる現象は減ります。

性能向上

専門家が役割分担することで精度向上します。

拡張性が高い

新しい専門家を追加すれば新タスクに対応可能です。 ただし、組織が大きくなると専門家間の派閥争いなどで学習の安定化や調整が難しいというデメリットもあります。