「Mixture of Experts」の版間の差分
Administrator (トーク | 投稿記録) 編集の要約なし |
Administrator (トーク | 投稿記録) |
||
| (同じ利用者による、間の1版が非表示) | |||
| 5行目: | 5行目: | ||
== 最小メモリ使用量が増える == | == 最小メモリ使用量が増える == | ||
すべての専門家をメモリに保持する必要あるため「起動した直後のメモリ使用量」は増えます。 | すべての専門家をメモリに保持する必要あるため「起動した直後のメモリ使用量」は増えます。 | ||
つまり人工知能アプリの起動に必要なメモリ容量が増えます。これは大した問題ではありません。 | |||
== 最大メモリ使用量が減る == | == 最大メモリ使用量が減る == | ||
| 17行目: | 17行目: | ||
新しい専門家を追加すれば新タスクに対応可能です。 | 新しい専門家を追加すれば新タスクに対応可能です。 | ||
ただし、組織が大きくなると専門家間の派閥争いなどで学習の安定化や調整が難しいというデメリットもあります。 | ただし、組織が大きくなると専門家間の派閥争いなどで学習の安定化や調整が難しいというデメリットもあります。 | ||
== 主な採用例 == | |||
* [[Switch Transformer]](Google, 2021) | |||
* [[Mixtral 8x7B]] | |||
* [[Wan 2.2]] | |||
[[category:大規模言語モデル]] | [[category:大規模言語モデル]] | ||
2025年10月6日 (月) 02:33時点における最新版
Mixture of Experts(MoE)とは、人工知能、とくに大規模言語モデル(LLM)で使われる重要なアーキテクチャのひとつで、「巨大なモデルを複数の「専門家」に分割し、入力ごとに必要な専門家だけを動かす仕組み」です。
従来は全教科を1人の全知全能の先生が担当していたものを、国語の先生、数学の先生、社会の先生などと科目ごとに分担したような感じです。
最小メモリ使用量が増える[編集 | ソースを編集]
すべての専門家をメモリに保持する必要あるため「起動した直後のメモリ使用量」は増えます。 つまり人工知能アプリの起動に必要なメモリ容量が増えます。これは大した問題ではありません。
最大メモリ使用量が減る[編集 | ソースを編集]
前述のように最小メモリ使用量は増えますが「計算中のメモリ使用量の増加」、つまり最大メモリ使用量は減ります。 これにより「起動したが途中でメモリ不足で落ちて使いものにならない」という現象は減るので絶対にこっちの方がいいです。
性能向上[編集 | ソースを編集]
専門家が役割分担することで精度向上します。
拡張性が高い[編集 | ソースを編集]
新しい専門家を追加すれば新タスクに対応可能です。 ただし、組織が大きくなると専門家間の派閥争いなどで学習の安定化や調整が難しいというデメリットもあります。
主な採用例[編集 | ソースを編集]
- Switch Transformer(Google, 2021)
- Mixtral 8x7B
- Wan 2.2