「Mixture of Experts」の版間の差分
Administrator (トーク | 投稿記録) 編集の要約なし |
Administrator (トーク | 投稿記録) 編集の要約なし |
||
| 17行目: | 17行目: | ||
新しい専門家を追加すれば新タスクに対応可能です。 | 新しい専門家を追加すれば新タスクに対応可能です。 | ||
ただし、組織が大きくなると専門家間の派閥争いなどで学習の安定化や調整が難しいというデメリットもあります。 | ただし、組織が大きくなると専門家間の派閥争いなどで学習の安定化や調整が難しいというデメリットもあります。 | ||
== 主な採用例 == | |||
* [[Switch Transformer]](Google, 2021) | |||
* [[Mixtral 8x7B]] | |||
* [[Wan 2.2]] | |||
[[category:大規模言語モデル]] | [[category:大規模言語モデル]] | ||
2025年10月6日 (月) 02:32時点における版
Mixture of Experts(MoE)とは、人工知能、とくに大規模言語モデル(LLM)で使われる重要なアーキテクチャのひとつで、「巨大なモデルを複数の「専門家」に分割し、入力ごとに必要な専門家だけを動かす仕組み」です。
従来は全教科を1人の全知全能の先生が担当していたものを、国語の先生、数学の先生、社会の先生などと科目ごとに分担したような感じです。
最小メモリ使用量が増える
すべての専門家をメモリに保持する必要あるため「起動した直後のメモリ使用量」は増えます。 つまり人工知能アプリの起動に必要なメモリ容量が増えます。
最大メモリ使用量が減る
前述のように最小メモリ使用量は増えますが「計算中のメモリ使用量の増加」、つまり最大メモリ使用量は減ります。 これにより「起動したが途中でメモリ不足で落ちて使いものにならない」という現象は減るので絶対にこっちの方がいいです。
性能向上
専門家が役割分担することで精度向上します。
拡張性が高い
新しい専門家を追加すれば新タスクに対応可能です。 ただし、組織が大きくなると専門家間の派閥争いなどで学習の安定化や調整が難しいというデメリットもあります。
主な採用例
- Switch Transformer(Google, 2021)
- Mixtral 8x7B
- Wan 2.2